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从 1308 年 加 泰 罗 尼 亚 诗 人 、 神 学 家 雷 蒙 。 F/R Ramon LlulD 发表 了 有 关 用 机 械 方法 
从 一 系列 现象 中 创造 新 知识 的 论文 开始 ,到 1943 年 美国 心理 学 家 W. S. McCulloch 和 数学 
家 W. Pitts 提出 MP 模型 及 1950 年 A. Turing 提出 著名 的 图 灵 测 试 , 再 到 1956 年 达 特 茅 斯 
会 议 上 人 工 智能 的 诞生 ,神经 网 络 几 经 沉浮 , 走 过 了 艰难 曲折 的 历程 ; 2006 年 从 单 隐 层 神 
经 网 络 到 深度 神经 网 络 模 型 , 迎 来 了 神经 网 络 发 展 的 又 一 高 潮 , 深 度 学 习 及 其 应 用 受到 了 前 
所 未 有 的 重视 与 关注 ,世界 迎 来 又 一 轮 人 工 智 能 变革 的 高 潮 , 从 谷歌 脑 到 中 国 脑 科学 计划 ， 
再 到 互联 网 十 和 中 国人 工 智 能 2.0, 人 工 智 能 及 深度 学 习 也 首次 写 进 了 2017 年 全 国人 民 代 
表 大 会 第 十 五 次 会 议 国务 院 政府 工作 报告 。 深 度 学 习 是 人 工 智能 及 机 器 学 习 的 一 个 重要 方 
向 ,在 未 来 , 它 将 会 不 断 出 现 激动 人 心 的 理论 进展 和 方法 实践 ,深刻 影响 我 们 生活 的 方 方 
面 面 。 

随 着 研究 的 不 断 深入 ,深度 学 习 已 经 超越 了 目前 机 器 学 习 模型 的 神经 科学 观点 ,学 习 多 
层次 组 合 的 这 一 设计 原则 更 加 吸引 人 。 从 第 一 代 的 深度 前 馈 神 经 网 络 开始 , 随 之 而 来 的 就 
有 如 下 三 个 问题 : 一 是 可 用 训练 数据 量 远 小 于 模型 中 的 参数 量 ,容易 出 现 过 ( 欠 ) 拟 合 现 象 ; 
二 是 随 着 层级 的 增加 ,模型 的 优化 目标 函数 呈现 高 度 非 凸 性 ,由 于 待 优化 参数 所 在 的 可 行 域 
中 存在 着 大 量 的 鞍点 和 局 部 极 小 值 点 ,所 以 参数 初始 化 策略 影响 着 网 络 模型 的 稳定 性 和 收 
SUE: 三 是 基于 误差 的 反 向 传播 算法 越 靠近 输出 层 变 化 越 大 , 越 靠近 输入 层 变化 越 小 ,这 对 
通过 梯度 下 降 方式 来 实现 逐 层 参数 更 新 会 导致 梯度 弥散 现象 。 为 了 解决 第 一 个 问题 便 提 出 
了 深度 卷 积 神经 网 络 和 深度 循环 神经 网 络 ,其 核心 均 是 通过 约 减 参数 量 间 接 提升 数据 量 的 
方式 降低 过 拟 合 现象 的 发 生 ; 针对 第 二 个 问题 和 第 三 个 问题 便 引 入 了 基于 自 编码 器 的 逐 层 
初始 化 策略 ,以 期 获取 的 初始 化 参数 能 够 避免 过 早 地 陷 人 局 部 最 优 , 同 时 弱化 或 克服 梯度 弥 
散 现象 ,例如 基于 受 限 波 尔 兹 曼 机 的 深度 置信 和 网络 。 进 一 步 , 基 于 传统 的 机 器 学 习 算 法 来 实 
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现 参数 初始 化 方向 上 涌现 了 如 深度 PCA 网 络 、 深 度 ICA 网 络 、 深 度 SVM 网 络 .深度 森林 
(随机 森林 多 层级 联 ) ,深度 极限 学 习 机 和 深度 ADMM 网 络 等 模型 。 同 时 与 之 类 似 的 ,通过 
更 改 非 线性 函数 以 换取 模型 扭曲” 能力 的 提升 .产生 了 如 深度 小 波 网 络 、 深 度 峭 波 网 络 和 深 
度 轮廓 波 网 络 等 模型 。 根 据 其 特性 ,我 们 称 这 些 网 络 为 深度 融合 网 络 。2014 年 以 来 ,大 量 
的 研究 文献 表明 层级 “深度 ”的 不 断 增加 ,或 导致 性 能 显著 提升 (如 深度 残 差 网 络 、 深 度 分 形 
网 络 ) ,抑或 导致 性 能 严重 下 降 ( 本 质 上 是 参数 量 远 大 于 训练 数据 量 )。 为 了 解决 该 问题 ,一 
方面 通过 多 通路 、 并 行 化 的 网 络 设计 来 前 弱 “ 深 度 ” 对 性 能 的 依赖 性 ,同时 塔 式 结 构 、 对 称 性 
等 也 被 融入 网 络 的 设计 过 程 中 ; 另 一 方面 ,深度 生成 模型 也 悄然 兴起 ,其 核心 是 通过 生成 训 
练 数据 集 的 概率 密度 函数 来 实现 数据 的 扩充 ,其 代表 便 是 生成 式 对 抗 网 络 和 变 分 自 编码 器 。 
值得 注意 的 是 ,与 传统 的 深度 学 习 设计 * 单 网 络 ? 不 同 , 生 成 式 对 抗 网 络 采用 了 ”两 个 子 网 络 ” 
来 实现 非 合作 状态 下 的 博弈 ,在 最 小 最 大 值 定理 的 保证 下 ,理论 上 可 以 保证 网 络 的 收敛 性 。 
除了 模型 结构 和 优化 策略 改进 外 ,应 用 问题 背景 也 不 再 是 经 典 的 输入 输出 * 单 数据 对 ?刻画 ， 
而 是 从 状态 到 行动 “整体 性 ”刻画 。 众 所 周知 ,感知 、 认 知 和 决策 是 衡量 智能 化 的 标准 ,充分 
发 挥 深度 学 习 的 感知 能 力 和 强化 学 习 的 决策 能 力 , 形 成 的 深度 强化 学 习 已 在 众多 应 用 问题 
上 取得 突破 ,如 无 人 驾驶 .计算 机 围棋 程序 和 智能 机 器 人 等 。 在 后 深度 学 习 时 代 , 其 核心 在 
于 生成 数据 环境 交互 和 领域 迁移 ,对 应 着 深度 生成 网 络 .深度 强化 学 习 和 深度 迁移 学 习 将 
继续 成 为 人 工 智能 领域 的 研究 热点 。 另 外 ,根据 数据 的 属性 和 操作 的 有 效 性 ,衍生 的 网 络 包 
括 深度 复数 域 神经 网 络 ( 如 深度 复 卷 积 神经 网 络 ) 、 深 度 二 值 神经 网 络 和 深度 脉冲 神经 网 
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类 脑 计算 与 深度 学 习 的 基础 与 应 用 研究 ,搭建 了 多 个 深度 学 习 应 用 平台 ,并 在 深度 学 习 理 
论 .应 用 及 实现 等 方面 取得 了 突破 性 的 进展 ,本 书 即 是 我 们 在 该 领域 研究 工作 的 初步 总 结 。 
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1.1 数学 基础 


1.1.1 ERE 


在 实数 域 上 ,大 小 为 nXm 矩阵 的 集合 可 以 表示 为 : 

M(R"") = {A:A € R"") (d 
因此 ,COMCR“”),R ) 可 作为 线性 空间 。 为 了 刻画 该 空间 中 矩阵 与 矩阵 之 间 的 关系 , 则 需要 
定义 距离 ,如 YA,BEMCR“”) ,它们 的 距离 distance(4,B) 满 足 非 负 性 ,对称 性 和 三 角 不 等 
式 性 。 通 常 ,可 以 通过 定义 范 数 的 形式 来 诱导 距离 ,常用 的 范 数 有 : VAC MCR") 














A i = mar{ 37 | A 21 LA e D | Aue 1] (1.2) 

All, =A 的 最 大 奇异 值 .3) 

A := (PP) (1.4) 

Al = maf > idee Payee lay | a.5 

Alis = »(XeJ[ (1.6) 
a ， m ix 

Als 2 (Z(3141]) (1.7) 


在 实际 的 信号 处 理 过 程 中 ,无 论 是 构建 损失 项 还 是 正则 项 ,每 一 种 范 数 都 有 其 特定 的 物 
理 意义 ,反映 着 数据 的 分 布 类 型 ,或 者 蕴含 着 数据 的 先 验 特性 。 

由 于 在 线性 空间 CM(R”").,R ) 上 通过 范 数 诱导 得 到 距离 ,所 以 便 可 以 衡量 其 中 任意 两 
个 矩阵 的 临近 关系 , 即 邻 域 特 性 ,根据 这 种 邻 域 特 性 , 便 可 以 将 线性 空间 进行 剖 分 ,当然 剖 分 
的 子 空间 的 个 数 取 决 于 邻 域 的 半径 。 通 常 , 称 具有 上 距离 的 线性 空间 为 距离 空间 ( 赋 范 线性 空 
间 )。 在 机 器 学 习 中 ,该 空间 中 的 任意 一 个 矩阵 都 可 以 视 为 是 一 种 线性 变换 ,当然 非 线 性 变 
换 可 以 通过 线性 变换 的 逼近 来 得 到 ,逼近 的 程度 取决 于 范 数 的 选取 以 及 邻 域 半径 的 定义 。 

矩阵 的 导数 的 求解 通常 在 机 器 学 习 中 较为 常用 ,如 参数 更 新 时 所 依赖 的 梯度 的 计算 等 。 
假设 对 于 输入 信号 xE R” 与 输出 信号 ?ER' 之 间 存在 着 线性 映射 关系 , 即 


fGO 5A «xd bz y 0.8 
其 中 AE R"" 为 “投影 ”矩阵 ,bE R" 为 偏 置 项 。 通 常 利 用 Le 范 数 来 定义 损失 函数 , 即 
Loss. y) = 11A « x-eb— yl (1.9) 


其 中 待 学 习 的 参数 为 (4,b)。 由 于 损失 项 的 形式 是 凸 函数 ,所 以 损失 项 关于 参数 的 偏 导数 


可 以 通过 如 下 的 公式 求解 : 
aL 
a (A*xcb—y xl 
" (1.10) 
Loss _ (A. xd-b—y) 





ob 
3E— 2p EFS BA OR fft nT VAG EXE ACE BT SC, BU A m WI AO DO ) 及 学 习 速 率 
a; 通 过 下 面 的 迭代 公式 进行 更 新 : 








AO — AGP gs. 9Loss 
en pom Q.1D 
p? = bË —ae 9Loss 
at 9b | gaat 





直至 (4 p? ) CSI Jb Oe AHH Re e CA IE AR 
另外 ,为 了 防止 过 拟 合 现象 ,通常 会 用 富 比 尼斯 范 数 约束 “投影 ”矩阵 作为 正则 项 , 即 
1 4 1 和, 它 的 导数 为 : 
2|Al£ _ IATA) _ 
9A 9A 
注意 : 这 里 的 过 拟 合 现象 是 指数 据 样本 量 相 比 参数 量 而 言 较 多 ,导致 训练 得 到 的 模型 
十 分 依赖 于 该 数据 集 ,使 得 该 模型 的 测试 性 能 或 者 预测 性 能 比较 差 , 即 在 另 一 数据 集 上 的 表 
现 较 差 (需要 说 明 的 是 这 两 个 数据 集 的 分 布 方式 相同 ) 。 
矩阵 的 奇异 值 分 解 是 指 , 对 于 任意 一 个 矩阵 4ER'"" ,都 有 如 下 的 表达 式 ， 
A=U. J.V" 
U' -U — I, Q. 13) 
y «VT — I, 
Hep E We fi H U ER” AVR", EULERI rh «d A A) Br EH UT AE PETI 
奇异 值 分 解 ,通过 奇异 值 的 排序 和 信息 利用 率 达 到 85% 以 上 的 准则 确定 主 成 分 的 个 数 ; 通 
常 , 主 成 分 分 析 是 一 种 线性 的 降 维 方法 。 使 用 矩阵 的 奇异 值 分 解 的 核心 是 逼近 的 思想 ,可 以 
通过 调整 对 角 和 矩阵 允 中 的 值 ,实现 对 矩阵 A 的 刻画 ,这 样 既 可 以 有 效 地 对 数据 进行 泛 化 ,又 
可 以 达到 降 维 、 进 而 实现 减少 计算 量 的 目的 。 


1.1.2 概率 论 


在 机 器 学 习 的 领域 中 ,经 常 使 用 后 验 概率 来 实现 执 果 索 因 的 目的 ,常用 的 公式 表述 为 : 
PY | X)PCX) 
DPY | OPOO 

x 


2A (1.12) 


P(X |Y) = 
(1.14) 
PCY) = MPO | 3OPOO 

x 


公式 中 , 称 P(XIY) 为 随机 事件 Y 发 生 的 前 提 下 ,随机 事件 X 发 生 的 概率 ,也 称 为 后 验 概 
率 ,P(X) 为 先 验 项 或 先 验 概率 ,P(Y|X) 为 似 然 项 ,P(Y) 为 随机 变量 Y 的 先 验 概率 或 边缘 


Q 
(D 


D 


D 


(p 


2 RESI, ESRI C) 


概率 ,也 称 为 标准 化 常量 。 进 一 步 ,公式 PCY) 可 以 根据 完备 空间 的 有 限 剖 分 及 可 数 可 加 性 
得 到 执 因 索 果 的 乘法 公式 。 

最 大 似 然 估 计 针对 模型 已 定 、 参 数 未 知 ,提供 了 一 种 给 定数 据 来 评估 模型 参数 的 方法 。 
假设 数据 集 o ,za ,xx 为 独立 同 分 布 的 采样 ,y 为 已 知 的 模型 (如 服从 高 斯 分 布 , 拉 普 拉 
斯 分 布 等 ) ,0 为 模型 的 参数 。 


根据 独立 同 分 布 的 假设 ， 
Bidder c EPA (1.15) 
SE OLR BBC GE UNS i 
LOO | xix? 7x82 = Iro. 10 (1.16) 


参数 0 的 最 大 似 然 估 计 是 通过 最 大 化 似 然 函数 ,使 得 求 出 的 0 值 与 实际 观察 中 的 训练 样本 
最 相符 , 即 


max L (6 | Xi X29 s XN) 6042) 


实际 应 用 中 , 常 利用 最 大 化 平均 对 数 似 然 , 即 


SnCPG, | 0) 
= N 

需要 注意 的 是 ,最 大 似 然 估计 仅 是 参数 估计 的 方法 之 一 ,通过 若干 次 独立 同 分 布 的 实 
验 , 观 察 其 结果 ,利用 结果 推算 出 参数 的 大 概 值 。 

对 于 分 类 问题 ,也 可 以 利用 最 大 似 然 估计 来 优化 ,考虑 到 计算 问题 ,我 们 经 常会 使 用 最 
ANE BT BUD SABIE PR BC. Bx, oy} SEH x ER" 为 输入 ,输出 目标 为 y;€E {1,2,…,C}); 
学 习 的 模型 为 > 一 /Cr,0) ,由 于 目标 为 离散 的 类 别 , 所 以 通过 计算 输出 每 个 类 的 条 件 概率 来 
界定 损失 函数 , 即 











o In(L(0 | xi «xo x2 
N 


arg max (1. 18) 
see 


f.G 0) = Ply = c | x0), = 1,2, C 


c 
DF. =1 (1.19) 
=l 
f(x.) € [0.1] 
得 到 的 负 对 数 似 然 函 数 为 : 
c 
1y: f c0) —— M y log f(x.) a. 20) 
c=1 


进一步 ,最 终 的 目标 函数 为 : 


N 
MG. fi) 
maxL (0) = 一 — — —— (1.21) 
e 


N 
38 36 Tr VEI EPG JI 36 SUR e eR C 


1.1.3. 优化 分 析 


交 蔡 迭代 乘 子 算法 (ADMMD 并 不 是 一 个 很 新 的 算法 , 它 适 用 于 求解 分 布 式 凸 优化 问题 
(其 提出 早 于 大 规模 分 布 式 计算 系统 和 大 规模 优化 问题 ), 通 过 分 解 协调 将 大 的 全 局 问题 分 
解 为 多 个 较 小 、 容 易 求解 的 局 部 子 问题 ,并 通过 协调 子 问题 的 解 而 得 到 大 的 全 局 问题 的 解 。 
若 优化 问题 可 以 表示 为 : 


minf (x) + g(z) 
TE (1. 22) 
s..Aex+Bez=c 


Jt .xE€R'.z€R",ACR’’, BER" .cER’.A fig 分 别 可 以 将 x,z RIER., TAMA 
ADMM 的 名 字 看 出 ,通过 引入 新 变量 ,然后 交叉 换 方向 来 交替 优化 , 即 引 入 y € R^ ,求解 如 
下 的 目标 函数 : 


minL (x,y,z) = f(x)+g(z)+y  * (A* x -Bez—e) + : lA*xc-B*z—cl£ 
AE 





(1. 23) 
优化 过 程 具 有 可 分 解 性 ,通过 如 下 的 迭代 公式 更 新 求解 : 
xD = arg minL (x,y ,z? ) 
z% = arg minl, (xt? , y? ,z) (1. 24) 


y? = y +p. (Ae xO? + Be zt? 一 c) 
注意 ,名 称 中 的 乘 子 算法 指 一 种 使 用 增 广 拉 格 朗 日 函数 的 ( 带 有 二 次 惩罚 项 ) 对 偶 上 升 方法 ， 
而 交替 迭代 指 的 是 x,z 交替 更 新 。 那 么 如 何 保证 ADMM 算法 的 收敛 性 ? 需要 具有 如 下 两 
个 假设 条 件 : 
CD 函数 fg 具有 闭 的 、 良 态 的 、 凸 函数 的 性 质 ; 
(2) 拉 格 朗 日 函数 L(x,y,z) 在 p= 二 0 时 有 鞍点 。 
需要 注意 的 是 ,在 高 精度 要 求 下 ,ADMM 的 收敛 性 很 慢 ; 但 在 中 等 精度 要 求 下 其 速度 
可 以 接受 。 关 于 对 偶 问题 ,探索 带 有 不 等 式 约束 的 极 值 问题 求解 如 下 : 
minf (w ) 
s.tg(m)z0, = 1 (1.25) 
him) =0, i= 1.2.01 
对 应 的 一 般 化 拉 格 朗 日 公式 为 : 


k l 
minl (w .a.B) = flw) + dda; + gi(w) + DB * h; Cu) (1. 26) 
D $ed i=l 


这 里 和 都 是 拉 格 朗 日 乘 子 。 但 是 如 果 按 照 这 个 公式 求解 ,会 出 现 问 题 , 因 为 求解 的 是 
最 小 值 ,而 这 里 的 g;(w ) 已 经 不 为 零 了 ,可 以 将 w 调整 为 非常 大 的 正 值 ,来 使 得 最 后 的 结果 
为 负 无 穷 。 为 了 排除 这 种 情况 ,定义 下 面 的 函数 : 





Opana Cao ) = max L (w .a B) (1. 27) 
ara; >0 


B 
这 里 之 所 以 使 用 最 大 值 ,是 因为 对 于 g;(w 0 770. SEE Cw) AO, AR a; FB; 使 得 
Oprima Cw HERR H g: Co ) 和 hi;(w ) 满 足 条 件 时 , 则 beama(w ) 王 yo )。 这 样 ,目标 函数 可 
以 写 为 ( 原 问题 ) : 


min O prima (@ ) = min max L (w ,a .B) (1. 28) 


B 
这 个 过 程 通常 不 容易 进行 ,所 以 考虑 如 下 的 问题 (对 偶 问 题 ) : 
max Op (a $) = max min L (w ,a .B) (1. 29) 
2 ere " 
仅仅 更 换 了 最 大 与 最 小 的 顺序 ,那么 在 什么 条 件 下 两 者 会 等 价 ? 假设 f. 都 是 凸 函数 ,h 为 
仿 射 函数 , 求 得 的 wa ,8 满足 KKT 条 件 , 即 
9LOv a. go _ 0 
aw; 


IL(w" a P) __ 0 
OB (1. 30) 


aj g;(w'2—0 
g;(w'0x0. @ SO 
则 原 问 题 与 对 偶 问 题 等 价 (具体 的 例子 可 以 参考 SVM 线性 分 类 器 ) 。 
梯度 下 降 法 是 一 个 一 阶 最 优化 算法 ,对 于 数据 集 {xi,y 径 : ,输入 与 输出 之 间 的 模型 为 
yh Go ,通过 如 下 的 优化 目标 函数 求解 参数 : 


min J (0) = d 3 0G) — y + A RO (1.31) 
o 2m 11 


如 何 求解 ? 通过 初始 化 参数 0 ,然后 通过 上 述 目标 函数 关于 参数 的 偏 导数 , 求 出 梯度 
下 降 量 ( 沿 方向 ) : 


3J (0) 


?0= 758 





ono? (1. 32) 
ge = 9 一 a。?0 
更 新 直至 损失 函数 满足 一 定 的 约束 条 件 : 将 求 得 的 0P 代入 至 损失 函数 中 , 对 于 
JOP) WEIJ OO) —J (90? )| 入 es, 则 退出 。 需 要 注意 的 是 ,如 果 目 标 函 数 为 非 凸 优化 
的 , 则 梯度 下 降 法 求 得 的 并 非 全 局 最 优 解 , 可 能 会 陷入 局 部 最 优 。 为 了 尽 可 能 避免 局 部 最 优 
(鞍点 ,局 部 极 值 点 ) ,通常 需要 引入 动量 参数 ,修正 下 降 的 量 , 即 0**? 了 = 二 k。，0% 一 a。，?0, 其 
中 的 «为 动量 参数 。 


1.1.4 框架 分 析 
小 波 分 析 框架 分 析 、 多 尺度 几何 分 析 是 机 器 学 习 中 应 用 最 为 广泛 理论 基础 最 为 清晰 


QEF emen 


的 架构 。 首 先 ,小 波 函 数 是 指 能 够 通过 伸缩 与 平移 生成 平方 可 积 空间 L* CR ) 的 一 组 基 , 该 
空间 中 的 任意 信号 在 该 组 基 下 的 表示 系数 刻画 该 信号 的 时 频 局 部 化 特性 , 即 公 式 : 
WT,(a.b) = [ro * gay dt 
= 1 t—b 
dua Q0) = aM a ) 
其 中 ,WTj(a,5) 为 小 波 系数 ,通过 平移 因子 b 和 伸缩 因子 a FR (0 wR BH HEL? ROS 
间 的 一 组 基 , 即 


(1.33) 








(dua (t) dae € L' (CR) (1.34) 
常用 的 一 代 小 波 函 数 包 括 Doubechies /iE 3 9l, Mayer 小 波 、Gaussian 小 波 以 及 
Morlet 小 波 等 。 需 要 注意 的 是 ,大 多 数 良 态 小 波 的 构造 是 基于 多 分 辨 分析 (MRA) ,而 且 构 
造 的 小 波 是 连续 的 ; 为 了 应 用 ,通常 将 连续 小 波 进行 离散 化 操作 ,而且 已 经 形成 快速 小 波 算 
法 一 一 Mallat 算法 ,包括 分 解 公式 与 重 构 公 式 ,其 中 分 解 公式 为 : 
aya (n) = Darm) * h(m— 2n) 
. (1. 35) 

din (n) = Darm) * gin — 2n) 


重 构 公式 为 : 
ar(n) = Darn Cm) © h(n—2m) + 9 dia Qn) * g(n—2m) (1. 36) 


式 中 心 g 分 别 为 低 通 滤波 器 (对 应 尺度 函数 ) 和 高 通 滤波 器 (对 应 小 波 函 数 ), 符 号 “a,d” 表 
DS GEL NEUE RU o 
与 小 波 分 析 相 比 , 框 架 分 析 在 信号 处 理 中 则 更 为 常用 ,由 框架 带 来 的 元 余 性 使 得 信和 号 的 
表示 具有 多 样 性 ,可 以 在 不 同 的 约束 下 求解 最 优 的 表示 系数 ,进而 本 质地 刻画 信号 的 特性 。 
首先 ,框架 不 是 基 ,是 带 有 宛 余 特性 ( 且 线 性 相关 ) 的 向 量 组 ,例如 简单 的 三 维 空间 的 基 为 : 
(40.0 0.0 1 0,0 0 DER 
但 要 使 基 变 为 框架 , 便 可 以 任意 加 该 空间 的 向 量 , 如 加 向 量 (1 1 0), 则 得 到 的 框架 为 : 
(a 0 0),(0 1 0),(0 0 D. 1 0)} CR 
所 以 该 空间 中 的 任意 一 个 向 量 在 该 框架 下 的 表示 是 不 唯一 的 ,而 这 个 多 种 表示 方式 恰好 是 
由 框架 的 元 余 性 带 来 的 。 进 一 步 ,对 于 L?(R ) 空 间 中 的 一 个 框架 , 记 为 {$mr}SL?(R), 注 
意 ,其 线性 组 合 具 有 自 表 示 性 ,对 于 VY /EL?(R ), 有 : 
As fllii hmn f KB. WF a. 37) 


其 中 的 A,B 为 框架 下 界 与 上 界 ,通常 由 小 波 构造 的 框架 称 为 小 波 框架 。 另 外 ,需要 注意 的 
是 框架 理论 是 表示 学 习 的 数学 基础 。 

多 尺度 几何 分 析 是 第 二 代 小 波 系统 ,克服 了 第 一 代 小 波 的 缺点 一 一 点 检测 ,代表 性 的 第 
二 代 小 波 包 括 : 次 波 、 曲 波 、 模 形 波 、 带 状 波 、 条 状 波 、 轮 廓 波 等 。 相 比 之 前 的 第 一 代 小 波 ,第 
二 代 小 波 大 多 数 没有 解析 形式 。 在 信号 与 信息 处 理 过 程 中 通常 作为 人 工 提取 特征 的 工具 ， 
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为 模式 识别 任务 提供 进一步 的 分 析 。 近 些 年 随 着 神经 网 络 的 广泛 使 用 ,开始 将 第 一 代 小 波 
作为 激活 函数 引入 到 神经 网 络 中 形成 小 波 神经 网 络 , 充 分 发 挥 其 局 部 化 、 方 向 性 、 多 尺度 特 
性 等 优势 ,但 第 二 代 小 波 通常 很 难 作 为 激活 函数 ,所 以 其 主要 用 于 滤波 器 组 的 构造 ,然后 初 
始 化 神经 网 络 模型 的 参数 , 尽 可 能 地 避免 过 早 陷入 局 部 最 优 。 


1.2 稀疏 表示 


本 节 给 出 稀 朴 学 习 的 发 展 脉络 以 及 有 关 稀 朴 的 热点 研究 课题 ,并 结合 灵 长 类 动物 视觉 
皮层 方面 研究 的 进展 ,给 出 稀疏 神经 认 知 的 发 展 历程 。 


1.2.1 稀 赃 表示 初步 


在 信号 与 图 像 处 理 过 程 中 ,模型 是 至 关 重要 的 。 借 助 于 合适 的 模型 ,可 以 处 理 各 种 任 
务 , 如 去 品 、 恢 复 、 分 离 . 内 插 、 外 插 、 压 缩 、 采 样 , 分 析 和 合成 检测 ,识别 等 。 

该 模型 的 核心 在 于 线性 代数 中 研究 的 一 个 简单 的 欠 定 线性 方程 组 。 给 一 个 满 秩 的 矩阵 
4ER" "GO<m) 产 生 一 个 欠 定 的 线性 方程 组 A， x 二 b, 我 们 知道 在 b 已 知 的 时 候 , 该 方程 的 
解 具 有 无 穷 多 个 ,然而 我 们 感 兴趣 的 是 求 最 稀 政 的 一 个 解 , 即 该 解 的 非 零 项 的 个 数 最 少 。 那 
么 这 个 解 是 不 是 唯一 的 ? 如 果 是 ,在 什么 时 候 ? 如 何在 耗 时 最 少 情况 下 找到 这 个 稀 朴 解 ? 
显然 ,对 于 稀 玻 模型 而 言 ,这些 问题 是 我 们 处 理 实际 问题 的 动力 与 理论 基础 。 另 外 ,该 领域 
的 研究 工作 也 是 对 线性 代数 ,优化 科学 计算 等 知识 的 一 种 延伸 。 


l. BREDATA 


稀疏 学 习 的 任务 主要 有 稀 琉 编码 .字典 学 习 。 在 回答 这 个 问题 之 前 ,首先 给 出 稀疏 信号 
及 字典 等 相关 概念 。 

关于 稀 朴 信号 的 定义 ,这 里 给 出 4 种 形式 : 严格 k 稀 朴 信号 ,可 压缩 信号 ,稀疏 基 下 的 
LIRE IE F ATI ERR G o 

COD 严格 k Rifas: 考虑 一 个 有 限 长 信号 x€ R ,如 果 信 号 x 至 多 有 A 个 非 零 元 素 ， 
即 I| x ome WU PR AES x 为 严格 人 稀 朴 信号 。 

(2) 可 压缩 信号 : 如 果 信 号 可 以 用 一 个 & 稀疏 向 量 来 近似 表示 , 则 称 这 样 的 信号 为 可 压 
缩 性 信号 。 

(3) FSR TF DIR hi fra: 大 多 数 的 情况 下 ,信号 本 身 不 是 稀 玻 的 ,但 是 在 某 些 合适 的 
基 或 变换 下 稀 朴 ,例如 一 个 正弦 信号 不 是 稀疏 的 ,但 它 的 傅 里 叶 变 换 是 稀 朴 的 ,只 包含 一 个 
非 零 值 。 或 者 定义 为 : WR Mas BBA k 个 非 零 变换 系数 , 则 称 该 信号 是 人 SLT 

(4) 稀 朴 基 下 的 可 压缩 信号 : 给 定 值 , 信 号 z 的 最 佳 近似 & 项 元 素 的 线性 组 合 为 总 = 


A 一 1 


Dai) «PG, MR, 为 x 的 最 佳 k 稀 蚊 近似 。 信 号 的 压缩 程度 取决 于 系数 a 中 所 保留 下 的 


i-o 


ms Reece) 
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元 素 个 数 。 

关于 字典 的 概念 ,一 般 来 说 ,字典 A 来 自信 号 空间 的 元 素 集 , 其 线性 组 合 可 以 表示 或 近 
似 表示 信号 。 在 我 们 经 常 关注 的 稀 朴 学 习 任 务 中 ,往往 要 求 字 典 是 一 个 “ 扁 矩 阵 ”, 也 称 为 过 
完备 字典 。 在 实际 应 用 中 ,这样 的 字典 优 于 正 交 基 已 经 得 到 验证 。 


2. Wii Rd 


7H XR i A BS 0] Ei EA Sc AT DR 398] 1996 4E BA. Olshausen fil D. J field 的 工作 ,他 
们 考虑 哺乳 动物 初级 视觉 皮层 简单 细胞 的 感受 野 的 三 个 性 质 , 即 空间 局 部 化 方向 性 和 带 通 
特性 。 如 何 理解 感受 野 的 这 些 性 质 , 并 在 自然 图 像 处 理 中 得 到 应 用 呢 ? 一 种 已 有 的 理解 视 
觉 神经 元 的 反应 性 质 的 方法 就 是 ,考虑 用 有 效 编码 的 方式 ,将 这 些 性 质 对 应 为 自然 图 像 的 统 
计 结 构 。 沿 着 这 个 思路 ,大 量 的 研究 试图 在 自然 图 像 上 去 训练 无 监督 的 训练 方法 ,以 获得 类 
似 于 感受 野 的 相似 性 质 为 目的 。 但 是 ,没有 一 个 能 成 功 获得 可 以 张 成 图 像 空 间 并 包含 上 面 
三 个 性 质 的 计算 模型 。BA. Olshausen 和 D. J field 的 工作 首次 利用 了 极 大 化 稀疏 的 特性 去 


解释 这 些 性 质 , 他 们 的 核心 观点 是 : 
E =— [preserve inf] — A[sparseness of a;] (1.38) 
其 中 的 信息 保持 项 可 以 写 为 : 
[preserve inf] —— MN [e — di . ec (1.39) 
系数 的 稀疏 特性 则 定义 为 ， 
[sparseness of a; ] 一 一 Xs(z) (1. 40) 


这 里 的 co 是 一 个 尺度 常数 ,函数 S(z) 的 选择 可 以 是 一 e-”,log(1 十 x?) 或 |z| 等 ,这 些 选择 都 
可 以 使 得 系数 具有 很 少 的 非 零 系 数 。 

其 后 沿 着 这 个 思路 ,我 们 考虑 的 稀 朴 编码 问题 可 以 归 为 求解 如 下 的 问题 ， 

给 定 一 个 过 完备 的 字典 DER" (nz< oo) 以 及 一 个 信号 ERA: 

Po:min| a ll, s.t. |x—D -a ll: <e A. 41) 

这 个 问题 是 NP 难 的 (组 合 优化 问题 ) ,所 以 对 上 面 这 个 问题 求解 的 思路 就 有 两 种 ,分 别 
为 1993 年 Stephane Mallat 和 Zhifeng Zhang 提出 的 贪 禁 算 法 和 1995 年 Scott Shaobin 
Chen,David Donoho 和 Michael Saunders 提出 的 松弛 算法 。 下 面 分 别 就 这 两 种 求解 的 思路 
给 出 详细 的 介绍 。 

贪 焚 算 法 一 一 首先 我 们 介绍 贪 焚 算 法 的 核心 观念 : 假设 字典 D 满足 spark D) >2, 38 
么 在 求解 的 最 优 解 中 , 非 零 项 系数 有 val(P。) 二 1, 进 而 我 们 需要 找到 这 个 解 ,可 以 利用 : 


到 
mine(j) = |a; i ef — ar = b/ lay 3 1.42) 








进而 得 到 : 
(afb)? 


eG) = ibl — PAR 
Li 2 





(1.43) 
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如 果 哪 一 项 e(j) 最 小 ,相应 的 =F 便 是 所 要 求 得 的 非 零 系数 项 。 利 用 相同 的 推理 ,假设 
spark CD) 725, ,那么 我 们 知道 val(P。) 一 如 ,这样 为 了 找到 这 个 解 的 非 零 项 ,需要 枚 举 
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项 。 然 而 这 个 过 程 的 时 间 复 杂 度 为 OOGn nko) ,是 非常 耗 时 的 。 
因此 , 贪 焚 算 法 放弃 了 穷 举 式 搜索 ,而 支持 局 部 最 优 单项 更 新 , 即 初 始 的 解 为 w 一 0, 和 
相应 的 支撑 集 为 空 集 ,然后 通过 迁 代 更 新 ,每 一 次 增加 一 个 非 零 项 系数 ,直至 第 次 得 到 w+ ， 
FR ERI AR ITO rh xD a 的 二 范 数 小 于 给 定 的 s 为 止 。 
代表 的 贪 禁 算法 有 : 正 交 匹配 追踪 (Orthogonal Matching Pursuit, OMP) ,匹配 追踪 
(Matching Pursuit, MP). 55 VO Be 38 £x (Weakly Matching Pursuit. WMP) 和 阅 值 算法 
(Threshold Algorithm,TA)。 其 中 最 为 典型 和 常用 的 是 OMP 算法 。 
松弛 算法 一 一 首先 ,松弛 算法 求解 的 问题 是 放松 Po 问题 中 的 Lo 范 数 ,通过 利用 连续 
或 者 光滑 逼近 它 ,通常 松弛 的 方式 包括 L, E (0,1]) 范 数 ,或 者 为 一 些 光 滑 函 数 》)log(1 十 
art), Pai /(a - 32) ,或 者 >) (1 — 75) 等 。 
对 于 将 Po 问题 放松 为 如 下 的 问题 : 
Pp:min || a |; st x—D-a (1.44) 
如 何 求解 这 个 问题 ?Gorodnitsky 和 Rao 提出 了 FOCUSS 算法 来 求解 此 类 问题 ,下 面 
我 们 将 其 思想 简单 概述 如 下 : 
这 种 方法 使 用 了 和 迭代 加 权 最 小 二 乘 (IRLS) 将 L, Cp © (0,1]) 范 数 表示 为 带 有 权 值 矩阵 的 La 
范 数 形式 。 在 迭代 求解 的 过 程 中 ,给 定 当前 的 解 @._ , 权 值 矩 阵 设 定 为 4- 一 diag(|w cai |") ft 
设 该 矩阵 是 可 道 的 , 则 有 
lA sa l} = | a lli (1.45) 
进一步 , 设 2—2q— p. MEH lla 1. PES Pip HR ATT SB A AR AE RTE SC (LAB D AT 33 
的 ,所 以 通常 取 为 伪 逆 , 即 | 4i- * e 1;, 基 于 此 ,我 们 利用 拉 格 朗 日 乘 子 法 来 求解 问题 P,: 
La) = | Ala *a li - AG —D-*a) (1. 46) 
然后 求 导 可 以 求 得 w ,迭代 的 停止 准则 是 | aa ‖ 2 小 于 预先 指定 的 阔 值 。 
ik: FOCUSS 算法 是 一 种 实际 的 策略 ,所 得 到 的 解 是 对 于 Po 问题 的 全 局 最 优 解 的 一 
fli yr. 
另外 一 种 松弛 的 策略 是 将 PS 问题 中 的 Lo 范 数 直接 变 为 Li 范 数 ,必须 注意 字典 中 的 
原子 是 否 进行 了 归 一 化 是 有 一 些小 小 的 差别 的 。 之 前 在 Po 问题 L。 范 数 与 系数 中 的 非 零 
项 是 没有 关系 的 ,但 是 L,(pE (0,1]) 范 数 趋 于 惩罚 较 大 的 非 零 项 系数 ,为 了 避免 这 样 的 情 
况 ,我 们 应 该 对 其 进行 合适 的 加 权 , 新 的 问题 就 变 为 : 
Pi:min|W «a ll; st x=D-a 0.47) 
其 中 , 权 值 矩阵 W f 8b EL SIGUE SEES W G0 —1/ || d; || ,如 果 字 典 是 经 过 归 一 化 处 理 过 
的 ,那么 得 到 的 矩阵 W= 了 ,相应 的 解法 就 是 1995 年 Chen, Donoho 和 Saunders 提出 的 基 匹 


配 算法 (Basis Pursuit. BP). 
其 次 ,在 实际 应 用 中 ,我 们 分 析 的 问题 是 基 匹 配 降 噪 (BPDN) ,由 于 已 经 假设 字典 了 的 
原子 经 过 归 一 化 处 理 , 求 解 的 问题 如 下 : 
Pi:min || a |， s.t. ||x—Dea@ ll} <e (1.48) 
这 个 问题 的 求解 ,一 方面 可 以 利用 线性 规划 去 求解 ; 另外 一 方面 也 可 以 通过 迭代 加 权 
的 最 小 二 乘法 来 求解 (Iterative-Reweighted-Least-Squares, IRLS)。 前 者 已 经 可 以 通过 各 
种 优化 软件 进行 求解 ,但 是 数据 量 较 大 的 时 候 , 二 次 规划 的 求解 过 程 过 于 慢 并 且 还 需要 对 一 
些 具体 软件 中 的 技术 进行 改进 。 我 们 关注 IRLS. 它 可 以 通过 拉 格 朗 日 乘 子 将 Pi 问题 转化 
为 下 面 的 无 约束 优化 问题 : 
Qi:minà | a lı +4 lx—D «a li (1.49) 


注意 ,这 里 的 A 是 关于 x,D,e 的 函数 。 通 过 设置 A —diagCla |) H lla ll; =a" * A"! +a, 
给 定 当 前 的 一 个 台 近 解 @; -1 ,可 以 得 到 Ai ,我 们 可 以 求解 : 


M, sminàa? + Ai «a^ Ll x— Da li (1.50) 


得 到 a, ,不 断 更 新 直至 满足 停止 准则 | w 一 w-; 1。。 当 然 由 于 4 的 不 同 , 得 到 的 解 也 不 一 
样 ,如何 选择 M? 通常 使 用 的 方法 就 是 最 小 角度 回归 (Least Angel Regression Stagewise. 
LARS) ,这 种 方法 给 出 了 随 变化 时 , 解 & 中 的 每 一 项 从 零 到 非 零 变化 的 路 径 。》 BRUN fta 
中 的 非 零 项 的 个 数 越 多 ,反之 越 少 。 另 外 一 种 方法 就 是 利用 规范 工 ; 差 来 绘制 出 随 变化 的 
曲线 图 , || €, xo 177 Il xo |]? ,选择 其 差 最 小 时 所 对 应 的 4。 

最 后 ,将 此 类 问题 转化 为 如 下 的 形式 : 


fla) —A* 1 «pO - Tx Dea lt (1.51) 


其 中 ,1 全 为 1 的 向 量 。 

对 于 此 问题 形成 了 不 同 的 迭代 收缩 算法 ,其 中 最 为 常用 的 4 种 算法 为 : 可 分 替代 函数 
法 .基于 迭代 的 最 小 二 乘法 .平行 坐标 下 降 法 、 逐 阶段 OMP。 

3. 字典 学 习 

字典 学 习 是 稀 朴 模型 中 的 核心 ,在 信号 与 图 像 处 理 的 过 程 中 ,如何 针对 应 用 场景 和 实际 
任务 选择 字典 ? 一 般 而 言 , 有 预先 指定 字典 、 带 参 可 调 字 典 和 学 习 字典 三 种 方式 。 

预先 指定 字典 一 一 对 于 预先 指定 的 字典 ,有 离散 余弦 、 非 下 采样 小 波 、 轮 廓 波 、 曲 波 等 ， 
这 一 类 字典 都 有 它 所 处 理 的 具体 的 图 像 类 ,如 图 像 中 的 Cartoon 部 分 被 认为 是 分 段 光滑 且 
具有 光滑 的 边界 。 一 些 预 先 指定 的 字典 都 有 详尽 的 理论 分 析 , 估 计 表 示 系 数 的 稀 朴 度 , 以 此 
来 简化 信号 的 内 容 。 

带 参 可 调 字 典 一 一 在 参数 的 控制 下 ,可 以 通过 调节 参数 来 获得 一 组 基 或 者 框架 ,进而 形 
成 字典 ,其 中 最 为 熟知 的 就 是 小 波 包 和 带 状 波 。 例 如 小 波 包 ,可 以 通过 计算 信号 在 不 同 尺 度 
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注意 : 预先 指定 的 字典 或 者 带 参 可 调 字典 具有 快速 的 变换 算法 ,所 以 计算 的 效率 比较 
高 ,但 是 它们 稀 朴 表示 信号 的 能 力 有 限 。 因 此 ,大 多 数 这 类 字典 都 被 限制 在 特定 的 信号 或 者 
图 像 类 ,不 适用 于 新 的 或 者 任意 感 兴趣 的 信号 。 

学 习 字典 一 一 为 了 避免 前 面 两 种 字典 稀 玖 表示 能 力 限制 的 缺陷 ,通过 学 习 的 方式 来 获 
得 字典 。 首 先 学 习 的 前 提 是 ,需要 建立 信号 样 例 的 训练 数据 库 ,相似 于 在 应 用 中 所 期 望 的 信 
号 ; 然后 根据 训练 样 例 库 构 造 一 个 经 验 学 习 字典 ,其 中 字典 的 原子 是 来 自 于 经 验 数 据 , 而 不 
是 一 些 理论 模型 ; 最 后 利用 得 到 的 字典 对 期 望 的 信号 进行 处 理 。 

学 习 字典 具有 以 下 两 个 特点 : 一 是 为 了 提升 稀疏 表示 信号 的 能 力 ,以 较 大 的 计算 量 为 
代价 ,使 得 学 到 的 字典 不 具有 清晰 结构 特性 。 另 外 一 个 学 习 的 缺点 是 训练 的 方法 被 限制 到 
低 维 信号 上 ,这 就 是 为 什么 处 理 图 像 的 时 候 , 需 要 在 一 些小 的 滑 块 上 训练 字典 的 原因 。 

学 习 字 典 的 方法 有 : Engan 等 人 提出 的 最 优 方向 法 (Method of Direction ,MOD) 和 
Aharon 等 人 2006 年 提出 的 K-SVD(Kmeans-Singular Value Decomposition) 方 法 。 下 面 首 
先 研 究 学 习 字 典 中 的 核心 问题 ,然后 给 出 经 典 的 K-SVD 方法 学 习 字典 的 思路 ,之 后 总 结 K- 
SVD 方法 的 缺点 及 改进 的 策略 ,最 后 介绍 字典 学 习 的 最 新 进展 。 

我 们 所 考察 的 问题 是 : 


min X asa: xdi s.t Iæ llo Skol <i <M (1. 52) 


Asta i 


或 者 : 


min IPIS st |ly—A-*xlixelcicM (1. 53) 


As, im 


PARAS FF efi XL? Aharon 等 人 回答 了 该 问题 ,至 少 在 e— 0 的 时 候 , 假 设 
存在 着 一 个 字典 4。 和 一 个 充分 多 样 的 训练 样 例 库 , 所 有 的 样 例 可 以 由 至 多 ko 个 原子 线性 
表示 , 则 重新 缩放 和 置换 列 原子 ,4。 是 唯一 能 够 表示 训练 样 例 库 中 所 有 的 样 例 的 字典 , 即 
K-SVD 算法 。 

为 了 得 到 字典 和 相应 的 稀 朴 表示 系数 ,通过 联合 去 求 表 示 系 数 和 字典 。 该 算法 包含 两 
步 , 一 是 稀 琉 编码 , 即 固定 字典 ,利用 OMP 算法 求解 相应 的 稀 朴 表示 系数 ; 二 是 固定 得 到 稀 
朴 表 示 系 数 后 来 更 新 字典 。 这 里 主要 陈述 如 何 更 新 字典 。 

如 上 面 的 问题 所 示 ,共有 M 个 训练 样 例 , 在 固定 字典 的 前 提 下 ,可 以 得 到 M 个 稀 朴 表 
示 系 数 , 将 其 按 列 排放 得 到 一 个 矩阵 , 记 为 为 了 更 新 字典 中 的 每 一 个 原子 ,比如 第 jo 个 
原子 ,需要 计算 残 差 矩 阵 : 


E, =Y— Da x (1.54) 
j*ds 
然后 计算 第 jo 个 原子 所 使 用 的 支撑 集 : 
A, = {i | XCjovi) Æ 0,i = 1,2, M] a. 55) 


之 后 计算 残 差 矩 阵 在 此 支撑 集 上 所 对 应 的 列 , 构 成 矩阵 ET. ,最 后 对 此 矩阵 进行 奇异 值 分 


解 ,得 到 ES =U « A+ VT ,更 新 字典 原子 得 到 a; 一 mm ,以 及 表示 系数 ; 


x 一 A(1,1)。m (1.56) 
K-SVD 算法 的 缺点 和 改进 思路 : 
K-SVD 学 习 字 典 的 思路 比较 简单 ,在 实际 中 也 获得 了 广泛 的 应 用 ,但 是 它 也 有 一 些 缺 
点 ,具体 如 下 : 


一 是 速度 和 记忆 问题 ,与 结构 化 的 字典 相 比 ,训练 得 到 的 字典 需要 更 多 的 计算 量 , 因 此 
使 用 和 存储 学 习 得 到 的 字典 ,与 传统 的 变换 方法 相 比 ,往往 缺乏 有 效 性 。 

二 是 限制 在 低 维 信和 号 ,学 习 过 程 被 限制 在 二 1000 的 低 维 信号 上 ,超越 这 个 维 数 会 带 来 
一 系列 的 问题 ,如 非常 慢 的 学 习 的 过 程 ,过 拟 合 的 风险 。 

三 是 单 尺度 上 的 字典 ,不论 是 通过 MOD 还 是 K-SVD 的 算法 训练 得 到 的 字典 都 是 图 像 
原本 尺度 上 的 考虑 ,但 小 波 变换 给 我 们 的 启示 是 信号 在 不 同 尺 度 上 具有 不 同 的 信息 量 ,能 否 
构造 多 尺度 上 的 字典 ? 

四 是 缺乏 不 变量 特性 ,在 一 些 应 用 中 ,期 望 得 到 的 字典 具有 一 些 不 变量 的 性 质 , 最 为 经 
典 的 性 质 就 是 平移 不 变性 质 、 尺 度 不 变性 质 , 换 言 之 , 当 字 典 应 用 在 一 幅 平 移 / 旋 转 /伸缩 上 
的 图 像 时 ,期 望 得 到 的 稀 朴 表示 与 原始 图 像 的 表示 具有 相似 性 。 

上 面 这 些 学 习 字典 的 缺点 都 是 预先 指定 字典 和 带 参 调 节 字 典 的 优点 。 下 面 针对 上 述 缺 
点 ,提出 一 些 学 习 字典 的 改进 策略 。 

针对 第 二 个 缺点 (限制 在 低 维 信号 ) ,Ron Rubinstein 提出 了 稀疏 K-SVD 学 习 的 策略 ， 
即 双 稀 朴 的 算法 。 具 体 描 述 为 : 字典 A 中 每 一 个 原子 能 够 表示 为 预先 指定 字典 4。 的 个 
原子 的 线性 组 合 , 因 此 ,能 够 写 为 A 二 A。* Z, 这 里 的 矩阵 Z 是 一 个 每 列 只 有 ko 个 非 零 项 的 
稀 玖 矩阵。 这 样 的 选择 有 什么 好 处 呢 ?” 这 个 字典 A 有 快速 运算 的 算法 ,因此 利用 A 和 它 的 
伴随 矩阵 是 比较 容易 的 。 之 后 ,得 到 的 求解 问题 如 下 : 
min Dy A -Zex l$ 
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i=l 


lz; lo Skos Sj <m a. 57) 
t. 
m lo <k 1 Si <M 
如 何 求解 式 (1.57)? — 7 il BE a fii E Ie Z, AH OMP SR fb i F(x, Ms 另外 
— Fa ERRAU) EAE IE Z. A 4 Ae E Z 中 每 一 个 列 或 者 每 一 
个 原子 ? 只 需要 将 上 面 的 目标 函数 等 价 为 : 














Ml»-A-Zz-xli-|v-A-3-zl 
= || E;— Ao +z, +x; ll? (1.58) 
其 中 这 里 的 E, = Y— A Jz, XE. 注意 条 为 稀疏 系数 矩阵 XX 的 第 j 行 ,之 后 根据 ， 
RAG 
|| Ej —Ao * z; e x} |? = || Ej * X; —Ao * z ll + fX; x (1.59) 


f 58 ^ ffr D [e] CK ee AB eZ 中 的 每 一 列 , 即 
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minlE;*x;—Ae*z;l$ st. Iiz; Ilo < ko a. 60) 


这 样 通过 OMP $E fii nT LA Fg A BT AY Fit HZ. 

BERT SS — Ar RR. DAE 2J D) h i A, — 15 Z8 F3 . Se find FL 77 3: BE 434 E A VB IE 
Br Jf ELE Y — A 3b sé 6 D SH . oC RR £F (I F AE g PRUE 590 (19 AES . HI È AO E i 
阵 与 伪 逆 是 相等 的 。 描 述 如 下 : 为 了 简便 ,给 出 两 个 本 矩阵 ,将 其 合并 为 一 个 字典 和 矩阵 A= 
[v ,有 JER”2” ,下面 主要 集中 在 字典 的 更 新 阶段 , 即 目标 是 : 

min || B+ X, +Ø- X, 一 了 | su W.w—-4.o06-I (1.61) 

WP RY Do 这 里 采用 固定 于 UO. BED. gH DREAM 
Procrustes Problem ,描述 如 下 ,求解 : 


minl4—9- Bl st Q'-Q=I (1. 62) 
可 以 将 上 面 的 目标 函数 写 为 : 
lA—Q-*Bl£2 = trlAT * A} + tr{B™ - B}—2tr{0. B* AT) (1.63) 


那么 极 小 化 上 式 , 转 化 为 极 大 化 tr{Q + B AT) ,根据 迹 的 性 质 , 有 : 
tulQ- B+ AT) B+AT=U+3-V" elQ-U-X-V) tr(a + b) = tr(b + a) 
(1.64) 





所 以 选择 Q—V + UT ,这 样 Z=1, EMT VATE TS triQ + Be AT) BARAKI 
针对 第 四 个 缺点 ,为 了 使 字典 具有 一 定 的 不 变量 性 质 ,Aharon 等 提出 了 一 种 特征 字典 ， 
这 种 字典 的 结构 性 质 引入 了 平移 不 变性 质 ,描述 为 : 假设 所 需要 的 字典 AER"“" 是 由 一 单 
信号 a。€E R"' 构 造形 成 的 ,通过 提取 所 有 长 度 为 的 块 (包括 循环 平移 形成 的 块 ), 称 单 信 
号 为 特征 信号 , 它 所 定义 的 字典 为 特征 字典 。 对 于 一 个 信号 y, 可 以 由 这 个 字典 来 进行 
dn: 
p- Sina = S o Rh (1. 65) 
k-1 k=1 
BOAR, 为 一 个 算 子 ,从 特征 信号 中 的 第 个 位 置 提取 长 度 为 n 的 块 。 现 在 在 此 结构 的 帮 
助 下 ,给 出 字典 学 习 的 目标 : 
min >) lly; Asx ll} st lxlo<h, i=1,2,…,M (1.66) 


Ax) M, imi 


ET fiiis 85 BE AH OMP 算法 去 求解 ; 但 是 在 字典 更 新 阶段 ,可 以 进行 如 下 求解 : 








Diyas l= Ðl- Da -Ra : (1.67) 
为 了 取 极 值 , 求 其 导数 ,可 以 得 到 : 
M m T m 
> (Yaw : r] (»- Dnw. Ra.) =0 (1. 68) 


进而 得 到 特征 信号 的 最 优 表 达 式 : 
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1 M m 
a = (È È| Da oj] D Dr + Ry; (1. 69) 


k=l j=l i=l k=l 


这 个 结构 有 哪些 优点 ? 一 是 由 于 字典 的 自由 度 远 小 于 mn ,所 以 说 仅 利 用 较 少 训练 数据 
便 可 以 得 到 特征 字典 ,另外 由 学 习 过 程 的 快速 收敛 特性 也 可 以 得 到 ,这 种 字典 的 适用 性 是 具 
有 平移 特性 的 信号 或 者 图 像 。 二 是 这 个 结构 字典 中 原子 的 尺寸 容易 调节 。 
针对 第 三 个 缺点 ,2007 年 Julien Mairal, Guillermo Spiro 和 Michael Elad 三 人 提出 了 
多 尺度 字典 学 习 的 策略 ,这 也 是 对 K-SVD 单 尺 度 学 习 字 典 的 一 种 改进 。 为 了 描述 的 方便 ， 
提出 全 局 K-SVD 字典 关于 降 噪 的 问题 : 
(ây D. £) —argmimi |l x — y li + Dyas ll ais Io 


-FMID-2a;—Rxlt (1.70) 


关于 这 个 问题 的 求解 ,包括 稀疏 编码 .字典 更 新 、 重 构 信号 。 首先 ,如 果 字 典 D 是 已 知 
的 ,那么 未 知 量 有 两 个 ,一 个 是 稀疏 表示 系数 &%.j; 另 一 个 是 整体 输出 图 像 x。 接 下 来 处 理 的 
思路 是 , 令 = y 时 , 先 利用 稀 琉 编码 求解 如 下 的 问题 : 


Â; = argminya || a; ll + l| D * a; — Rix ll? Q. 70) 
18358] 4 TD TS] ER FA 0 ,之 后 更 新 求解 全 局 信号 
$=argmim|x—yli+ >) |D + e; — Rx ll} (. 72) 
它 具 有 一 个 闭 形 式 的 解 , 即 
j= (u + IRER) (os TOXRLD. a.) a. 73) 


其 次 ,如 果 字 典 是 未 知 的 ,那么 也 可 以 通过 K-SVD $E 3X 3E (15€ 2J . BI f B i ia 3 P. eA 
— PI Uf 5 55 9t. PRT LE ILE Ri it de os BC Ia] HE (3 36 FC. 13:891 5 RR ZUG PE A E 
HIE EI A js (09 R 。 

WAL ihe BEA RERARR? 由 于 一 幅 图 像 的 信息 是 呈 多 尺度 分 布 的 ,如 果 能 够 获取 
不 同 尺度 上 的 字典 来 表征 这 些 不 同 尺度 上 的 信息 ,之 后 将 这 些 多 尺度 上 的 信息 进行 融合 处 
理 , 便 能 得 到 一 种 对 原 图 像 更 好 的 通 近 。Julien Mairal, Guillermo Spiro 和 Michael Elad 等 
人 提出 了 利用 图 像 四 又 树 的 多 尺度 信息 分 布 和 K-SVD 训练 字典 的 方法 ,得 到 每 一 尺度 上 
的 字典 。 下 面 分 为 两 步 分 来 阐述 这 篇 文章 的 思想 ,一 是 四 又 树 模型 选择 多 尺度 结构 的 信息 ; 
二 是 每 一 尺度 上 的 稀 朴 编码 .字典 更 新 ,以 及 最 后 多 尺度 上 的 信息 重 构 信 和 号。 

1) 四 又 树 模型 

给 出 多 尺度 上 的 四 又 树 模型 如 图 1. 1 所 示 。 

关于 四 又 树 , 有 两 个 参数 ,一 个 是 多 尺度 的 个 数 N; 另外 一 个 是 树 的 深度 。 其 关系 通过 
n, —n/A 来 描述 ,其 中 ,s 为 尺度 因子 ,n 为 ;二 0 时 滑 块 尺寸 的 大 小 , 且 有 * 一 0,1,…,N 一 1。 

2) AARD FERMES 

给 出 需要 求解 的 问题 表达 式 : 
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图 1.1 多 尺度 上 的 四 叉 树 模型 


(D, quu) —argmina || x — y l2 


Na 4 M, Na) 4 M. 
+ DD ID + ate Rux E+ DDD) Sate ate lo O70 


符号 解释 : D, 为 尺度 * 上 的 字典 ; qi 为 尺度 s 上 第 个 位 置 上 的 第 & 个 样本 所 对 应 的 
稀疏 表示 系数 ; Rie ABE s 上 第 个 位 置 的 图 像 上 提取 的 第 个 样本 的 算 子 。 如 何 求 
解 上 述 问题 ? 仍然 利用 单 尺度 K-SVD 的 思路 ,分 为 每 一 尺度 上 的 稀 朴 编码 和 字典 更 新 ,之 
后 再 进行 重 构 。 此 处 只 给 出 已 知 的 每 一 尺度 字典 和 相应 的 表示 系数 上 的 重 构 公式 , 即 考虑 
如 下 全 局 恢复 问题 : 





n-1 4 M, 
mind lx- yli + 5222 9] ll D, * ate — Rrax Il (1.75) 


s=0 n=] k=l 


最 后 ,得 到 的 恢复 信和 号 的 闭 形式 解 为 : 
j= (u +33 DIU (» +E >) 2) RYTD,. as] a. 76) 

yx AS 3c 35 03 £s SE dE AK BBS GR AL fk YW, BF Julien Mairal, Guillermo Spiro 和 
Michael Elad 的 文章 。 

除了 这 种 改进 之 外 ,2011 年 Boaz Ophir, Michael Lustig 和 Michael Elad 提出 了 利用 小 
波 变换 的 多 尺度 字典 的 学 习 策 略 。2007 年 Julien Mairal 等 人 的 文章 直接 利用 图 像 空 域 的 
四 又 树 模型 的 多 尺度 信息 ,Boaz Ophir 等 人 认为 也 可 以 利用 其 多 尺度 上 的 小 波 系数 ,通过 对 
每 一 尺度 上 的 小 波 系 数 进行 学 习 来 得 到 字典 ,之 后 处 理 相 应 尺度 上 的 小 波 系数 , 青 通 过 小 波 
逆 变 换 得 到 原始 图 像 的 一 种 逼近 。 简 单 地 将 这 篇 文章 的 思路 描述 如 下 : 

首先 建立 一 个 训练 样 例 图 库 , 对 其 每 一 幅 图 像 利 用 小 波 进行 N 尺度 分 解 ,前 面 每 一 尺 
度 上 ,得 到 3 个 高 频带 ,最 后 一 个 尺度 上 有 4 个 频带 , 即 一 个 低频 带 和 3 个 高 频带 。 通 过 收 
集 所 有 图 像 ,相同 尺度 和 频带 上 的 小 波 系数 (尺度 系数 ) ,将 其 作为 该 尺度 上 的 未 处 理 的 训练 
样 例 集 ,再 进行 滑 块 处 理 , 得 到 该 尺度 上 的 训练 样 例 集 ,利用 K-SVD 算法 进行 训练 得 到 该 
尺度 上 的 字典 ,这 样 便 有 3N 十 1 个 字典 。 在 测试 阶段 ,给 出 一 幅 图 像 ,假设 其 与 训练 样 例 库 
中 的 样 例 具 有 相似 性 (可 以 是 噪声 水 平等 ) .通过 同样 的 小 波 来 进行 相同 尺度 上 的 分 解 ,对 分 


me 深度 学 习 基础 CO 
@ Po 


解 后 的 每 一 个 尺度 上 的 小 波 系数 利用 相应 尺度 上 的 字典 ,利用 OMP 算法 计算 求解 该 小 波 
系数 的 稀疏 表示 系数 ,之 后 得 到 小 波 系数 的 一 个 到 近 , 青 通 过 逆 小 波 变换 得 到 原始 图 像 的 一 
个 逼近 。 

4. mee 


接 下 来 主要 讨论 信号 处 理 中 的 稀 牙 模型 ,以 及 稀 朴 模型 的 最 新 进展 。 关 于 合成 稀 朴 模 
型 和 分 析 稀 朴 模型 的 成 果 主 要 参考 Michael Elad 团队 的 工作 。 共 分 为 三 部 分 来 论述 ,第 一 
部 分 论述 合成 稀疏 模型 ; 第 二 部 分 分 析 稀 朴 模 型 ;第 三 部 分 介绍 稀 朴 模型 的 最 新 进展 。 在 
正式 开始 论述 这 些 工作 前 , 先 给 出 一 些 已 有 的 信号 模型 分 析 。 

A5 PEASE Y — (y; 1; CR" ,如 果 该 样 例 集合 是 通过 一 幅 图 像 滑 块 得 到 的 ,那么 在 一 
幅 图 像 中 ,光滑 的 块 是 以 较 高 的 概率 出 现 的 ,高 度 非 光滑 和 失真 的 块 是 几乎 不 存在 的 。 那 么 
就 可 以 利用 贝 叶 斯 框架 下 的 概率 密度 函数 给 出 描述 先 验 分 布 P(y) , 先 验 在 信号 处 理 中 已 经 
得 到 了 广泛 的 应 用 ,如 逆 问 题 ,压缩 异常 检测 等 。 例 如 考虑 去 噪 问题, 观测 图 像 是 由 干净 图 
像 加 噪声 得 到 的 , 即 y 二 yo 十 n, 已 知 噪声 具有 有 限 的 能 量 || n ,<<e, 则 优化 问题 变 为 : 

maxP($) st | 3—yl:<e (1.77) 


对 于 先 验 表示 形式 的 很 多 工作 已 经 完成 。 下 面 给 出 两 种 常见 的 先 验 构 造 方 式 , 其 中 一 
种 最 为 常见 的 构造 PCy) 的 方式 就 是 基于 图 像 内 容 的 直观 期 望 。 例 如 , 吉 布 斯 分 布 : 
P(y) = Const » e?! tli (1. 78) 
其 中 工 是 拉 普 拉 斯 矩阵 ,P(y) 是 对 图 像 y 概率 的 一 种 评价 。 在 这 种 先 验 中 ,光滑 性 被 用 于 
判断 图 像 的 概率 ,并 且 在 信号 与 图 像 处 理 中 得 到 广泛 的 应 用 。 在 这 种 先 验 的 描述 下 ,优化 问 
题 可 以 写 为 : 


min||L-yll? st ll y-ylla<e (1. 79) 
» 
进一步 利用 拉 格 朗 日 乘 子 法 ,得 到 
min l L * li +l $—yllz (1. 80) 
; 


因此 它 的 解 可 以 很 容易 得 到 : FLL * L-- n1] y Kp pe 的 选择 应 该 满足 问题 中 的 限制 
ll ¥—y ll xe. 
与 此 类 似 的 一 个 问题 : 如 果 信 号 y — He yo 十 n, 其 中 H 为 线性 退化 算 子 ,那么 得 到 的 
HSLL" * LHH" + H] 'y, 这 就 是 著名 的 Wiener 滤波 器 。 
由 于 直观 上 L 范 数 要 比 L 范 数 更 为 稀疏 ,所 以 近 几 年 ,将 吉 布 斯 分 布 中 的 L, 范 数 用 
Li 范 数 蔡 代 ,得 到 : 
min | L + $ ll sh d y—»l:xe (1.81) 


这 一 选择 类 似 于 全 变 差 算 子 (Total Variation. TV). 
另外 一 种 构造 先 验 的 方法 是 基于 信号 的 变换 系数 。 例 如 ,对 于 一 个 信号 ,考察 其 小 波 
变换 了 ,得 到 小 波 系数 工 。y ,在 这 种 情况 下 , 先 验 PDF 就 为 ; 
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PCy) = Const + e?! r7!7 (1. 82) 

此 处 的 PE CO,1 EN Y PRE Air EL. TF ILS A OR fie ER vn SOT AR HC Y JH LI E 

方式 。 在 后 继 的 研究 中 , 除 小 波 变换 外 ,还 可 以 考虑 离散 余弦 变换 (Discrete Cosine 

Transform, DCT) .哈达 玛 变换 (Walsh-Hadamard Transform. HT) , 3: W4) 43 Er (Principal 

Components Analysis,PCA)。 例 如 基于 主 成 分 分 析 的 先 验 可 以 写 为 一 个 多 变量 的 高 斯 
分 布 : 

P(y) = Const 。 e i008 00 (1. 83) 


EP e = Diy, R AAMKE WR = L1 00, - 0". 


上 面 基于 先 验 得 到 的 模型 ,对 于 给 定 信号 ,通过 先 验 概率 P(y) 来 评价 比较 容易 ,但 是 从 
服从 该 分 布 中 获得 随机 采样 是 相对 困难 的 。 为 了 解决 这 个 问题 ,人 们 开始 研究 稀 疏 模型 
(Sparse-Land) , 稀 朴 模型 有 两 种 模式 , 即 合成 与 分 析 , 下 面 分 别 来 考虑 这 两 种 模型 。 

合成 稀 朴 模型 一 一 利用 信和 号 稀 朴 来 定义 稀 朴 基 下 的 稀 玻 信号 ,在 合成 稀 朴 生成 模型 中 ， 
从 稀 朴 表示 系数 e 出 发 ,随机 选择 一 个 基数 为 的 支撑 集 T( 如 果 字典 的 原子 个 数 为 m, 那 
么 这 种 选择 有 3) 种 ) ,然后 利用 字典 D 中 对 应 支撑 集 的 列 形成 D7, 与 相应 的 ar 相 乘 ,最 终 
得 到 感 兴趣 的 信号 y?。 可 以 发 现 ,此 时 该 信号 对 应 着 子 空间 span{d :4 € D.j € T) WRF 
典 中 原子 d, 的 指标 i TT, 那 么 可 以 将 它 从 字典 D 中 去 掉 , 因 为 其 不 影响 这 个 子 空间 。 

WMA Mm SH: 

$,— D> arg min || a ||o s.t. ll y—D-a@ ll2<e (1. 84) 
此 模型 求解 不 再 袭 述 , 在 实际 中 的 应 用 分 为 : 

CD 分 析 。 给 一 个 信号 y, 能 否 找 到 潜在 的 表示 系数 ao? 这 个 过 程 叫 做 原子 分 解 ,解决 

的 问题 为 : 

min || a lo s.t. ll y—D-a ll2<e (1. 85) 
388 6 TUR] FERES ift i OR f E XR T6] RII f i gan ,虽然 它 不 一 定 是 潜在 的 wm TH Je TS Bb 
的 ,有 较 少 的 非 零 项 。 如 果 非 零 项 的 个 数 越 少 ,那么 e" 在 以 w 为 原点 .半径 为 s 的 圆 的 区 域 
里 出 现 的 概率 越 大 。 一 种 现象 : 通常 仿真 实验 中 得 到 的 a* 与 wo 差 得 较 大 (支撑 集 都 有 误 )， 
但 是 却 不 影响 最 后 的 信号 重建 效果 。 

(2) 闭 问 题 。 假 设 得 到 的 直接 观测 为 ?一 碧 。y 十 ma, 这 里 的 H 为 线性 退化 算 子 ,m 为 品 
声 或 者 扰动 项 ,求解 的 问题 为 : 

min || æ |l, s.t. | y-H*D.alce (1. 86) 
可 以 得 到 原始 信号 y E D *a' REF di TF TAT AY i R Ma 。 

(3) ERER. EE — TR a S RT ARED AW npe Ef b E ESA ,实际 得 到 
的 直接 观测 为 c 王 已 y, 这 里 的 PE R^" gl ARE. y ARE FU E Ff. dep 
jo<<n。 通 过 求解 问题 : 

min || æ ll s.t. |e—P+D-a l<e (1. 87) 


sux Reece) 
中 ro 


得 到 这 个 问题 的 解 a* ,与 字典 D 相 乘 ,其 结果 D * ac 尽 可 能 为 信号 y 的 条 件 是 : 传 感 矩阵 
P+ D 满足 限制 等 距 条 件 (RIP) ,换言之 jo > 2k. 
(4) 形态 成 分 分 析 。 假 设 观 测 得 到 的 信号 是 两 个 子 信号 的 到 加 , 即 有 y= y + yo ,并 且 
这 两 个 子 信号 分 别 由 两 个 稀疏 模型 产生 ,求解 的 问题 为 : 
min lel lel. s.t. | y—A *a—A:*am ll; xe (1. 88) 


通过 求解 上 面 的 问题 , 便 能 得 到 看 似 合 理 的 解 六 二 Al * a* Fly; =A, * a* 。 

分 析 稀 玻 模型 一 一 相 比 于 合成 稀 玻 模型 系统 的 研究 ,分析 稀 朴 模型 的 研究 相对 比较 “年 
轻 ”。 这 里 关于 分 析 稀 朴 模型 的 工作 主要 参考 2011 4E S. Nam, M. E. Davies, M. Elad 和 R. 
Gribonval 的 文章 。 首 先 ,给 出 一 个 信号 是 Cosparsity 的 定义 : 信号 xER 关于 算 子 0 € 
R’* 的 Cosparsity 定义 为 : 

Cosparsity l: = p— || Q-xll, (1. 89) 
BARBAS N *3))()0—0.,;—1.2. p fii x 的 Cosupport。 

Ax A SY Pr DA i i EC e p np DLE ECC E TER AQ. = x EL, FANT iL EC n far 
生成 信号 x? KEERATA 中 随机 地 选取 / 行 ,并且 记 下 其 对 应 的 指标 集 人 A, 有 |4A|=2 ,然后 
随机 形成 一 个 信号 ER ,例如 wv 服从 独立 同 分 布 的 高 斯 概率 密度 函数 。 最 后 将 信号 v 正 
交 投影 到 空间 (span{w :w, E0 ,jEA))+ ,得 到 信号 即 x== (1 一 QT (A, OF) 0) v. SE 
JA, Fs iti E FP A 4 BEDS DL x 的 Cosupport 与 算 子 定义 了 分 析 的 子 空 间 , 即 (wj 30 —0, EA 
REA xE (span{wj:w; € 0 ,jEA))+ ,那么 对 于 (w;,x) 0 的 算 子 0 中 ,如 果 不 考虑 那些 
行 , 是 不 影响 子 空间 的 。 

3g 6 (09) OF Dr Fi MEE s 

#=argmin|| Q« x || o s.t. y=M-x (1.90) 
其 中 M 为 测量 矩阵 ,注意 这 里 || -x l| opl. fap RIK A [n] t2 

贪 焚 分 析 算 法 (Greedy Analysis Pursuit; GAP) 一 一 如 果 信 号 a 本 身 是 严格 户 一 ! Raith, 
信号 ,可 以 取 0 = 工 ,这 样 便 可 以 利用 稀 朴 编码 中 的 贪 禁 算 法 求解 该 问题 ,基于 此 ,S. Nam, 
M. E. Davies, M. Elad 和 R. Gribonval 提出 了 贪 禁 分 析 匹 配 算法 (GAP) ,这 个 算法 的 主要 思 
想 与 合成 贪 焚 算 法 中 的 冰 值 算法 有 一 定 的 相似 性 , 即 首先 给 定 输入 M yel Me € (0,1), 
初次 设置 它 的 Cosupport 集 为 A,— (10.2.7 p) ,并 求解 : 


£ = arg min || Qs, -x || st y=M-x (1.9) 
得 到 的 解 如 下 : 
[° -Q —M'M-:MM- A-A I [°] 
Xo = (1. 92) 
M y 
然后 通过 贪 焚 迭代 ,直至 第 & 次 ,计算 e =O + X, 13] T, — (i: la | Zt max; la; ) . BRE SG 
(wj 30 —0 的 指标 集合 ,然后 去 掉 该 支撑 集合 得 到 A, =A, — T, BERUF; 
£, = arg min || Qu, * xl? st y 了 一 Mr (1.93) 


更 新 得 到 解 总 . ELSE IG A WEE k> p — LIE LEE EXE XC Hh AUR 
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¥=argmin|| Q-xl, st ||ly—M-cll.<e (1.94) 
仍然 利用 上 面 GAP 的 思路 ,只 是 将 其 中 的 求解 问题 变 为 : 
x, = arg min || Q, exl? st ly—M.xl|,<e (1. 95) 


这 个 通常 利用 拉 格 朗 日 乘 子 的 方法 进行 求解 , 即 可 以 写 为 : 
$.— arg min( | Qu, - xli tA y Me x li} 














: y M d 
= arg minf Hi E X | (1. 96) 
其 中 4 为 拉 格 朗 日 乘 子 ,得 到 的 解 为 : 
M Y Ty 
总 一 PA . M (1.97) 
凸 松弛 分 析 算法 一 一 基于 凸 松弛 算法 ,得 到 需要 求解 的 问题 为 : 
t=argmin| Be xl st ly 一 M.xzls 和 es (1. 98) 


这 个 问题 的 理论 工作 可 以 参考 Candies 等 人 的 经 典 结 果 , 即 如 果 测 量 矩 阵 M 满足 带 有 常数 
09 [/Q - RIP 条件, 其 中 * 为 信号 x 的 稀 朴 度 , 那 么 由 该 问题 求 得 的 解 与 真实 的 解 的 关系 
满足 : 

| at .x— (QT .x), |, 


1 zx” —xl 入 Coe 十 C 万 


(1. 99) 
对 于 求解 可 以 利用 迁 代 收缩 算法 。 
1.2.2 Hip 


ACT F ER AYE INLD 2 Na A SP a i 
AAEE A 4 Br Be 3 i) E A [RR .形态 成 分 分 析 等 ; 而 关于 分 析 稀 朴 模 型 的 
应 用 主要 有 压缩 传 感 等 。 下 面 分 别 来 介绍 这 些 应 用 。 


1. 合成 模型 的 应 用 


描述 下 面 应 用 的 前 提 是 合成 稀 朴 模型 的 生成 模型 为 MCA ,ko sa s€) ,并 且 该 模型 的 参数 
已 知 。 
CD 分 析 : 车 yEM(A,ko,a «e ,那么 能 否 找到 y 在 字典 A 下 的 潜在 的 表示 系数 xo? 
这 个 过 程 也 被 称 为 原子 分 解 。 显 然 ,潜在 的 表示 系数 xo 服从 || A .xm 一 ?| ,三 e, 但 是 除了 
xo， 还 有 很 多 的 表示 系数 x GE GE || A+ x 一 ye ,三 e。 求 解 的 问题 是 : 
Ps: minixlil, st ly—A-*xlxe (1. 100) 


PARERE RME BRES xo 不 一 样 ,甚至 支撑 集 的 差异 性 很 大 ,但 是 这 也 不 影响 
对 于 信号 y 的 逼近 性 能 。 
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(2) 降 品 : 假设 y€ MCA Ro a ,s) 为 真实 信号 ,但 是 由 于 在 观测 中 引入 了 噪声 n, JE 
知道 噪声 的 能 量 ,那么 实际 得 到 的 观测 信号 为 了 ?一 y 十 &。 将 信号 了 代入 分 析 中 的 待 求解 问 
AB ASB AY AR xs UWR ko 很 小 ,那么 解 x5? 在 潜在 的 解 xo 的 s 十 9 邻 域内 U Cx ve +0) ， 
进而 可 以 得 到 信号 y 的 一 个 逼近 4 + x. 

(3) 道 问题 ; 假设 观测 得 到 的 信号 3 一 HH. y 十 za, 这 里 的 线性 算 子 能 够 表示 模糊 、 投 影 、 
下 采样 ,或 者 各 种 线性 退化 了 的 算 子 ,n 为 之 前 的 噪声 ,求解 的 问题 变 为 : 

min | x || o st | y-H-A-xl|l,<e (1.101) 
得 到 的 解 为 x5™, 然 后 与 字典 A 相 乘 得 到 真实 信号 y f 3s HT. 

(4) 压缩 传 感 : 给 定 y€ MCA ho a ve) ,假设 利用 观测 矩阵 P 了 得 到 的 观测 信号 为 c = 
P…y, 此 处 P 可 以 是 随机 观测 或 者 确定 性 观测 的 。 无 论 哪 一 种 观测 ,该 观测 矩阵 与 字典 A 
相 乘 得 到 的 传 感 矩 阵 DS =P + A 需要 满足 等 距 限制 条 件 (Restricted Isometry Property, 
RIP) 。 然 后 求解 问题 : 

minlxl, st lle~P+A-+xll,<e (1.102) 
得 到 的 解 为 x ,进而 求 出 真实 信号 y I TG TA + xi. 

(5) 形态 成 分 分 析 : 给 定 信号 yi € Mi (Ay skisa se) Fl ys € M: (Ae oho saz sez) » WLI fri 
BON y= yi ys ,然后 通过 求解 下 面 的 问题 : 

PL min lxilloc-lMxello set. I y—A xı — 4A: | xl; ete (1. 103) 
SUA Gri ,x;), 乘 以 相应 的 字典 得 到 信号 y 的 分 离 信号 。 作 为 恢复 过 程 中 的 一 部 分 ,图 像 
中 逐 段 光滑 的 内 容 (Cartoon) 和 纹理 部 分 必须 分 开 考 虑 ,此 时 形态 成 分 分 析 就 是 必要 的 。 


2. 分 析 模 型 的 应 用 


描述 下 面 分 析 模型 的 信号 生成 模型 为 MA ,4,a ), 即 随机 从 分 析 算 子 9 E R^" pp 
2 行 并 记 下 相应 的 位 置 组 成 支撑 集 A ,利用 这 1 行 线性 张 成 一 个 空间 W=span {wi:wE0， 
ICA): 然后 随机 形成 一 个 信号 vER“: 一 服从 独立 同 分 布 的 高 斯 概率 密度 函数 的 信号 ,其 
中 a 是 相应 的 方差 ; 最 后 将 信号 正 交 投影 到 W 的 补 空间 上 得 到 信号 y= 1010, + 
ADA). Hl y€ MQ la). 

之 前 已 经 知道 ,从 框架 角度 来 讲 , 任 意 一 个 合成 稀疏 模型 都 有 一 个 等 价 的 分 析 模 型 ,所 
以 合成 模型 中 的 应 用 都 对 应 着 一 个 相应 的 分 析 模型 的 应 用 。 下 面 来 分 析 压 缩 传 感 。 

给 定 信号 ye MI ,1,a ) ,通过 观测 矩阵 了 得 到 观测 信号 g 一 已. ,实际 中 由 于 观测 过 
程 中 引入 的 干扰 项 ,导致 实际 观测 的 信号 为 8 二 g 十 n, 其 中 干扰 项 的 能 量 为 上 || ae. HA 
求解 的 问题 为 : 





minl B- yllo st | g-P-*yl;xe (2.104) 
求解 得 到 信号 y D — AILEY. DORE Al GP AT EN He ii Pe «T IG DRUSI vpn f Hei fe 
感 的 传 感 矩阵 DS = P + A 分 为 观测 矩阵 已 和 字典 4 ,因为 之 前 的 DS 较 满足 RIP 条 件 ,而 分 
开 后 , 则 只 需要 验证 观测 矩阵 下 是 否 满足 4-RIP 条 件 即 可 ,那么 这 里 所 使 用 的 分 析 算 子 0 
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为 字典 (框架 )4 的 对 偶 ( 框 架 ) 字 典 。 
3. 基于 稀 疏 模型 在 分 类 中 的 应 用 


首先 ,介绍 2009 年 Wright, Ma Yi 等 人 的 工作 , 即 稀 朴 表示 分 类 (Sparse Representation for 
Classification,SRC) 的 思想 ,假设 给 定 一 个 样 例 集合 ,分 为 训练 和 测试 部 分 ,训练 样 例 集 记 
H cP y) E, LH x? 为 训练 样本 ,y 为 相应 的 类 标 ; 测试 样 例 集 记 为 {x3™*),。 对 于 
训练 样 例 集 , 将 每 一 类 的 训练 样本 放 在 一 起 ,如 第 7 类 就 为 : 

X; = {nj = 1,2M} (1. 105) 
这 里 不 妨 取 ) 一 1,2,…',N, 即 有 N 类 。 然 后 对 于 每 一 类 的 训练 样 例 集 Xi ,将 其 中 的 样 例 按 
列 排 ,形成 一 个 矩阵 记 为 D; ,也 称 为 第 7 类 的 字典 ; 这 样 便 可 以 得 到 N 个 字典 ,将 其 级 联 形 
成 一 个 大 字典 也 王 [Di ,D,,… ,Dw]。 之 后 在 测试 阶段 ,需要 通过 求解 下 面 的 问题 来 得 到 每 
一 个 测试 样本 的 类 标 : 
minlel, st lx*—D-*alze d. 106) 
OR SR RES ii BS AN FH Kan ,进一步 可 以 得 到 逼近 的 信号 总 ”"' ,以 及 对 应 每 一 个 子 字 典 可 以 得 
BX, — D, * a, ,通过 判断 : 
ja = arg min | eI" —¥, ll (1.107) 
进而 将 测试 样本 xl 分 到 第 ) 类 。 

其 次 ,介绍 2010 年 Qiang Zhang, Baoxin Li 的 工作 ,他 们 的 工作 动机 是 将 判别 准则 加 入 
PFE RA P ,使 形成 的 新 模型 一 方面 具有 稀疏 表示 能 力 , 另 外 一 方面 也 具有 判别 能 力 。 此 
处 的 判别 准则 包括 Softmax 判别 代价 函数 、 费 舍 尔 判别 准则 、 线 性 预测 分 类 误差 .Logistic 
代价 函数 等 。 下 面 简要 地 描述 文章 的 思想 : 假设 对 于 一 个 样 例 集 ,其 中 训练 样 例 集 记 为 
(Gr? ,yi)) 攻 1, 测试 样 例 集 记 为 {x™*),。 将 训练 样本 按 列 形成 一 个 矩阵 XX"™* ,相应 的 类 标 
构成 类 标 和 矩阵 H=[h ,hs，… ,hwj, 其 中 hh 二 (0.0,…,1,…,0)TE RN EMRA xT" 的 类 
标 , 其 第 i 个 元 素 为 1, 其 他 元 素 为 0.N 为 类 别 的 个 数 。 通 过 求解 下 面 的 问题 : 

(B Wd) = arg min | X* — Dealst7lH—-weeal 


(1. 108) 
st lla llo<T, i21.2,.M 


Sth D ASK JW 为 判别 能 力 字典 ,并 且 上 面 的 第 二 项 || H—Wa ll; 为 分 类 误差 。 
通过 交 蔡 迭 代 求 解 上 面 的 优化 问题 ,得 到 的 解 为 { 态 ,W}。 然 后 在 测试 阶段 ,对 于 测试 信号 
x; ,利用 判别 能 力 字 典 , 得 到 1—W e xr € RN ,通过 判断 : 
ja = arg maxi (1. 109) 

进而 将 测试 样本 xl 分 到 第 j, 类 。 

基于 分 析 稀 玻 模型 的 过 参 变 量 问题 ,首先 从 一 个 简单 的 例子 开始 ,如 果 信 号 f 是 分 段 
线性 的 ,那么 显然 在 每 一 段 自 变量 取 值 内 ,对 应 的 系数 参数 是 常 值 。 不 妨 设 了 分 为 十 1 段 ， 
那么 该 函数 具有 个 变 点 位 置 ,下 面 对 该 信号 采集 d 个 点 ,那么 就 有 : 


f= ux] (1. 110) 


dep p REX — diag(1.2. a) a b € RY 为 系数 向 量 ,此 时 a,b 在 有 限 差分 算 子 Qo 
PERG Fi GE MOr + a 与 Qore* b 的 非 零 位 置 相 同 。 由 于 采样 信号 的 长 度 为 d, 而 参数 
的 个 数 却 有 2*，d, 所 以 这 就 是 确定 过 参 变量 的 问题 。 通 过 上 述 分 析 , 得 到 如 下 的 最 小 化 
问题 : 








a 2 
e-u1-xi(*)| s.t. l| | Owr ea |? +| Owr bl <k (1.11D 
2 


注意 这 里 的 gf, H g 是 由 观测 得 到 的 ,由 真实 信号 干扰 或 者 染 噪 造成 。 如 果 求 解 上 面 
的 优化 问题 得 到 的 解 为 (a* b" ) ,那么 便 有 原始 信号 的 逼近 ， 


min 
ab 


f= ux. | (. 112) 


下 面 将 该 例 进 行 推广 ,在 推广 过 程 中 ,描述 得 到 的 观测 信号 g 为 8 一 M * f+n, 其 中 M 
为 测量 矩阵 。 将 待 求解 的 问题 描述 为 : 
| 
an /2 


e 是 噪声 的 能 量 , 即 || n || oe 是 一 般 的 算 子 。 如 何 求解 这 个 问题 ? 利用 GAP 算法 的 思 
想 ,对 于 给 定 输入 [Xi,…,X,],M,0 ,g 以 及 >) | Qa; |? 的 稀 朴 度 p 一 1, 首 先 初 始 化 
CosupportA, = (1.2.* p} ,然后 求解 在 A。 下 的 问题 的 解 : 


a 
g—M-([X.--.X,]° | ; | 


a, 


2 


min| D | Qow * a; |? 
P 








St 8 一 M [XX]. xe (1.113) 


0 

















min >) l | Qs, +a; |° lli 2 Q. 114) 
ej) i=l 














2 


得 到 解 {a? 115 HAE HE RAI EP k BARES >) | 0 .ar |? T, = b 


max 3) la-a; lj = 12:7 p] ,通过 更 新 支撑 集 人 一 A 一, 并且 计 算 : 


& 


a 
min D7 | | Qs, «a; |? lE --2]g — M Do is > | a. 115) 
a) i21 

a, J 12 

















更 新 得 到 解 , 直 至 迭代 满足 B p — L 时 ,终止 该 过 程 ,输出 结果 。 利 用 这 个 模型 可 以 求 
解 如 下 的 问题 : 

n 分 段 线性 的 信号 或 者 图 像 的 去 噪 ; 

于 分 段 线性 的 信号 或 者 图 像 的 分 割 ; 

n 分 段 线性 的 信号 或 者 图 像 的 修复 。 


CD 
Q 
Q 2 
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这 一 部 分 的 应 用 参考 2014 年 Raja Giryes, Michael Elad 和 Alfred Bruckstein 的 工作 。 
1.2.3 稀 耻 认 知 学 习 、 计 算 与 识别 的 范式 
1. 稀 朴 模型 的 最 新 进展 


稀 政 模 型 通常 分 为 合成 和 分 析 两 种 模式 ,其 中 合成 稀疏 模型 的 研究 已 经 比较 完善 ,如 稀 
玖 编码 ,字典 学 习 理 论 等 ; 但 是 对 于 分 析 稀 玻 模型 的 研究 相对 比较 "年轻 ”, 例 如 该 模型 下 的 
字典 学 习 理 论 。 对 于 合成 稀疏 模型 ,介绍 一 种 结构 稀疏 模型 ,这 一 部 分 的 理论 及 应 用 参考 
2009 年 R. Jenatton, F. Bach 和 J. Y. Audibert 的 工作 和 2009 年 Junzhou Huang 和 Tong 
Zhang 的 工作 。 另 外 对 于 分 析 稀 朴 模 型 ,给 出 其 中 一 种 稀 朴 对 偶 框架 (字典 ) 学 习 的 理论 ,这 
部 分 是 ShiDong Li 教授 2013 年 的 工作 。 
结构 稀 朴 模型 一 一 主要 给 出 具有 结构 稀 玻 的 模型 ,此 处 的 结构 是 指 信号 在 字典 下 的 表 
示 系 数 及 支撑 集 的 拓扑 结构 。 如 之 前 考虑 的 合成 稀疏 模型 中 : 
min| alo st ly-D.al:<e (1. 116) 
上 述 模型 并 没有 考虑 a 的 支撑 集 T 的 结构 特性 。 常 用 的 一 种 求解 该 问题 的 方法 是 凸 松弛 算 
法 ,利用 Ly 范 数 代替 Lo, 但 是 可 以 看 到 Li 范 数 是 基数 层面 上 的 稀 玻 ,编码 具有 较 少 的 信 
息 。 基 于 此 缺点 ,一些 学 者 提出 了 比较 流行 的 志 - 工 ; 范 数 ,描述 如 下 ,已 知 e 的 指标 集 为 I= 
(0,2, p) A I A TUR ER RUAT 1 SIE Aa f Li-L 范 数 定义 为 : 
le lia, = »(x« (1.117) 


GEJ \ GEG 


可 以 看 出 Li-L: TORO EAR ACK E WR i EREN AY Lo WRR AE RTE EE. 10 , An 
SR REL All FI AS F3 Af ae fri, HS I n BE GE di be E A HS RE S 是 什么 ? 为 了 回答 该 问 
题 ,2009 4 R. Jenatton, F. Bach fll J. Y. Audibert 三 人 首先 直观 描述 了 a 的 零 模式 与 非 零 模 
x. HI 


Z={j@=0jE0H=UG (1.118) 
Ges 
其 中 等 为 仿 的 一 个 子 集 , 对 应 也 给 出 了 e 的 非 零 模式 , 即 
P = {j:a; #0.j € I} = {G°:G € 9} a. 119) 


其 中 Go AG 的 关于 指标 集 工 的 补 集 。 然 后 ,研究 了 这 两 种 模式 与 S 之 间 的 关系 ,得 到 了 两 
种 算法 ,一 个 是 已 知 非 零 模式 P, 导 出 S 的 后 向 算法 ; 另外 一 个 是 已 知 $, 导 出 非 零 模式 P 
和 零 模式 Z 的 前 向 算法 。 通 常 关 注 的 是 后 向 算法 ,如 果 知 道 表示 系数 a 的 非 零 模式 P 或 者 
零 模式 Z ,那么 就 可 以 得 到 ,进而 可 以 推出 a 的 Li- 工 , 范 数 。 
另外 对 于 贪 禁 算法 ,2009 年 Junzhou Huang 和 Tong Zhang 基于 信息 论 编码 法 则 提出 
了 一 种 非 凸 惩罚 ,同样 已 知 e 的 指标 集 为 TI 一 {1.2.…:. 四 } .考虑 一 个 稀 朴 子 集 FCT, 在 此 基 
础 上 定义 了 一 个 编码 复杂 度 为 : 
c(F) =| F |+ cl(F) (1.120) 


其 中 clGF) 为 定义 在 下 上 的 码 长 , | 下 | 为 下 的 基数 。 然 后 ,利用 e 的 支撑 集 supp(a ) = U: 
aj7-0.; € I) ,来 定义 a 的 编码 复杂 度 : 


cla) = min{c(F) :supp(a )CF.FCI) C1, 121) 
再 利用 a 的 编码 复杂 度 作 为 正则 项 的 约束 ,求解 如 下 的 问题 : 
minc(a) st ly 一 Deal 入 es (1.122) 
或 者 
minly—D*a; st cla)<s (1.123) 


其 中 s 为 编码 复杂 度 。 文 中 给 出 的 表示 系数 e 的 结构 稀 玖 包括 : Ea AE A JE W ia 
玻 、 图 稀 巩 和 随机 场 稀 朴 的 编码 复杂 度 的 公式 。 并 且 给 出 了 上 面 问 题 的 一 种 贪 禁 求 解 算法 ， 
即 结构 正 交 匹配 追踪 算法 (Struct OMP)。 最 后 通过 实验 分 析 得 到 结论 : 信号 所 对 应 的 表示 
系数 的 编码 复杂 度 越 小 , 则 利用 编码 复杂 度 作 为 正则 约束 得 出 上 述 问题 的 解 的 性 能 越 好 ,并 
且 能 够 反映 出 解 的 支撑 集 的 结构 特性 。 
为 了 讲解 最 优 对 偶 框 架 模型 , 先 介绍 一 些 基础 知识 ,包括 框架 的 定义 、 对 偶 框架 的 计算 
AAAI A Bi PB TF LE BY tit o 
框架 定义 : 希 尔 伯 特 空间 HPA — AE 90 (x, ), UR AEE OAS B< + off EXT 
Alfli< Di <n> i <Blls lls (1. 124) 


则 称 这 组 序列 {x,), 为 互 的 一 个 框架 ,其 中 A、B 分 别 为 框架 的 下 界 和 上 界 。 当 A=B 时 ， 
则 该 框架 为 紧 框 架 ; 且 A=B=1 时 , 则 为 帕 塞 瓦尔 框架 ; 如 果 任 意 去 掉 序列 {x,), 中 的 一 个 
元 素 ,此 时 不 再 是 一 个 框架 ,该 框架 就 称 为 准确 框架 ,准确 框架 是 一 个 基 。 

对 偶 框 架 的 计算 公式 : 对 于 任意 一 个 有 限 非 准确 框架 D, 该 框架 的 所 有 对 偶 框 架 计 算 
具有 如 下 的 形式 : 





D = (D-D*)"D+WU— DW + D)? D') (1.125) 
其 中 W 是 任意 的 矩阵 ,I 是 单位 阵 ,注意 此 处 D 可 以 是 稀疏 表示 中 的 过 完备 的 字典 ,D" 为 卫 
fi 35 AA PEE HUE E, 

ik. 可 以 看 到 任意 一 个 非 准确 框架 D 的 对 偶 都 有 无 穷 多 个 ,特别 是 当 D 为 准确 的 框架 
时 , 它 的 对 偶 只 有 一 个 , 即 它 的 逆 。 

Tb ETE: 假设 疡 是 一 个 有 限 非 准确 框架 ( 即 不 是 基 ,因为 基 是 一 种 特殊 的 框架 )， 
以 及 信号 了 在 D FERRE f=D -a ,那么 存在 D 的 稀疏 对 偶 框架 , 记 为 DD, 使 得 D* - 
f=a 。 注 意 对 于 D,D 的 选择 并 不 是 唯一 的 。 

基于 上 述 基础 知识 ,考虑 分 析 稀 玖 模型 中 的 分 析 算 子 的 最 优选 择 策略 ,考虑 的 问题 为 : 

f = arg min | Deflo st lg—M-flxe (1.126) 
或 者 为 松弛 后 的 问题 : 


f = arg min | D -fla st lg—M-fl;xe (1.127) 
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其 中 万 为 分 析 算 子 ,M 为 测量 矩阵 。 当 然 信 号 了 不同, 关于 D 的 对 偶 记 选取 也 不 同 。 下 面 考 
虑 分 析 算 子 万 的 最 佳 选 取 策 略 ,求解 问题 为 : 
{Do »f} = arg min || D'-fl; st lg—M-fl;xeD:D' =I (1.128) 


Df 
SAGE — RAS MEG HE. EXC FIEL EEA ^ (fr 
minl ell; st Ilg—-M-D-a |l,<e (1.129) 
Va Ib ££ 3& — 4 RBS b EB A — PT Zr B dE c URS LSU rp 238 8] — 
问题 , 即 为 什么 表示 系数 与 真正 的 表示 系数 之 间 差 异 很 大 ,但 是 恢复 出 来 的 信号 却 能 很 好 地 
接近 于 真实 信号 ? 基于 上 面 的 等 价 模型 ,Shidong Li 等 人 通过 如 下 的 定理 给 出 了 合理 的 
解释 。 
定理 1.1 合成 稀 政 模型 对 应 等 价 的 分 析 稀 疏 模 型 的 解 为 {D, ,了 ), 则 在 观测 矩阵 M 
满足 D-RIP 的 条 件 下 ,有 : 
| D; -f— Ds -Pla 


(1. 130) 
ls 


I F-fIE<GeE+G 


其 中 CD? +, ARIA ta 的 最 佳 S 项 逼近 。 

所 以 上 述 问 题 的 原因 是 : 恢复 出 来 的 信号 能 够 良好 地 接近 于 真实 信号 是 因为 稀 朴 表示 
系数 具有 较 快 的 衰减 特性 。 

其 次 ,Shidong Li 等 人 给 出 了 另 一 种 最 优 对 偶 选 择 的 方法 一 Fix f E Ip. 5 EG 
过 和 迭代 的 方式 求解 下 面 的 问题 : 对 于 k=0 


fo = D+ arg min || el。 s.t. || f—D-+a || «o (1.13D 
其 中 fo ÆX f ISLE. AF E 1.2. LOR A 
08,2 = arg min lel, st. Dee=fi4 (1. 132) 
然后 通过 对 偶 框 架 的 计算 公式 计算 : 
Aa = ao- —D' (D+ D'Y! fia (1.133) 


其 中 Aa- = (WAD? (D+ D?) D) fiai. iG BEBE F WITZ OR TUO. 

fh arg min | D'(D-D'O?f--Aaealo st. |lg—M-fl;ze (1.134) 
停止 迭代 的 条 件 为 | fe fia Il oe. 

这 种 思路 使 用 的 是 框架 D 的 对 偶 框架 ,结合 稀 朴 对 偶 存 在 的 结论 ,不断 地 迭代 以 更 新 
实现 对 真实 信号 的 逼近 。 

2. 认 知 神经 科学 


认 知 神经 科学 是 一 门 旨 在 探讨 认 知 历程 的 生物 学 基础 科学 ,主要 的 目标 为 阐明 心理 历 
程 的 神经 机 制 ,也 就 是 大 脑 如 何 运作 、 如 何 造就 心理 或 认 知 功能 。 它 的 研究 主题 包括 注意 、 
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意识 ,决策 判断 学习 和 记忆 。 下 面 来 简要 地 描述 这 些 概念 。 

注意 : 是 一 个 心理 学 的 概念 ,属于 认 知 的 一 部 分 ,是 一 种 导致 局 部 刺激 的 、 意 识 水 平 提 
高 的 .知觉 的 ,选择 性 的 集中 , 它 表现 为 对 某 对 象 的 指向 或 集中 。 

意识 : 是 一 个 不 完整 模糊 的 概念 。 一 般 认 为 意识 是 人 对 环境 及 自我 的 认 知 能 力 的 清 
晰 程度 。 

决策 判断 : 指 做 出 决定 或 者 选择 ,是 一 种 在 各 种 替代 方案 中 考虑 各 项 因素 做 出 选择 的 
认 知 ,思考 过 程 。 决 策 者 在 做 决策 之 前 ,往往 面临 不 同 的 方案 和 选择 以 及 有 关 决 定 后 果 的 某 
种 程度 上 的 不 确定 性 ,决策 者 需要 对 各 种 选择 的 利弊 .风险 做 出 权衡 ,以 期 达到 最 优 的 决策 
结果 。 

学 习 : 是 通过 教授 或 者 体验 获得 知识 .技术 .态度 和 价值 的 过 程 , 学 习 必 须 依 赖 经 验 才 
可 以 有 长 远 成 效 。 

记忆 : 是 指 神经 系统 存储 过 往 经 验 的 能 力 ,广泛 接受 的 模型 将 记忆 过 程 分 为 三 个 不 同 
的 阶段 、 编 码 、 存 储 和 检索 。 目 前 ,认为 人 类 的 记忆 过 程 和 电脑 处 理 信息 存储 的 过 程 相似 。 

视觉 稀 朴 认 知 进展 一 一 1968 年 Hubel 和 Wiesel 以 及 1982 年 DeValois, Albrecht 和 
Thorell 的 工作 说 明 ,哺乳 动物 初级 视觉 皮层 上 的 神经 元 的 接受 域 ( 即 V1 区 ) 具 有 局 部 、 方 
向 和 频率 的 性 质 ,进一步 ,大 多 数 细胞 被 分 为 简单 和 复杂 两 类 。 在 视觉 研究 中 ,基本 问题 就 
是 确定 为 什么 细胞 的 选择 和 组 织 具有 这 些 性 质 。 为 此 ,一 些 学 者 已 经 考虑 视觉 系统 与 自然 
图 像 的 统计 性 质 之 间 的 联系 ,给 出 了 合理 的 假设 ,视觉 系统 自 适应 地 去 处 理 特定 的 输入 ,这 
种 适应 机 制 能 够 通过 神经 元 的 发 展 和 演化 产生 。 视 觉 输入 具有 特定 的 统计 性 质 ,如 1994 年 
Ruderman 和 Bialek 给 出 了 视觉 输入 不 是 白 噪声 的 性 质 ; 1994 年 Field 给 出 了 视觉 输入 不 
是 高 斯 噪声 的 性 质 ; 另外 ,在 较 高 层次 上 的 描述 ,视觉 输入 包含 着 边缘 ,不 同 的 纹理 等 结构 
性 质 。 同 时 Field 给 出 V1 区 的 性 质 能 够 反映 视觉 输入 的 统计 性 质 ,没有 一 个 统计 信号 处 理 
系统 能 够 处 理 任意 类 型 的 输入 ,并 且 达 到 最 优 ,因此 对 于 给 定 具有 统计 特性 的 输入 集 , 总 能 
够 找到 一 个 给 定 意 义 下 的 最 优 信号 处 理 系 统 。 

1996 年 Olshausen 和 Field 给 出 了 在 较 低 的 层次 上 ,简单 细胞 对 于 输入 的 响应 可 以 通 
过 一 个 线性 模型 进行 描述 , 即 


M 
IG.) = Dalry) es (1.135) 
i=1 


其 中 Cary y) 29 A 9 P8 (8 «a; (zx,y) 接 近 于 相应 的 接受 域 .s; 为 简单 细胞 的 响应 ,另外 在 这 
个 线性 模型 中 ,Field 给 出 了 一 个 基本 的 假设 ,* 是 稀 朴 的 。 为 了 衡量 随机 变量 s; 的 稀 朴 性 ， 
定义 期 望 函 数 EGG GO ) ,特别 是 G 的 选取 是 凸 的 且 二 阶 导 数 是 正 的 ,如 GC?) = s$ mnt 
质 暗含 了 在 s; 是 稀 玖 的 时 候 , 它 的 取 值 要 么 非常 大 ,要 么 接近 于 零 。 另 外 s; 是 统计 无 关 的 ， 
HI s; 不 能 用 于 预测 s;(i 冯 站 得 到 模型 ,求解 s: 的 过 程 就 是 稀疏 编码 ,或 者 是 独立 成 分 分 析 
(ICA)。 对 于 独立 成 分 分 析 , 前 提 是 给 定 大 量 的 输入 图 像 I(z,y) ,需要 确定 s; 和 aiCz,y) 的 
值 ,利用 极 大 化 似 然 的 方法 估计 s: 和 a;(z,y) 的 值 。 思 路 如 下 : 首先 考虑 a;(x,y) 可 以 形成 
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一 个 首 的 线性 系统 , 记 w: 为 ai(zyy) 对 应 的 逆 滤 波 器 。 那 么 通过 点 积 确定 : 
s =< w Ia,y) >= PwiGsy) Ir,y) (1.136) 
其 次 ,假定 给 了 T WL RBA WR PR CRT DLE S 


M 
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由 于 s, DA Fi LYE PP PA ae E HI G e D y RC. 那么 极 大 然 函 数 等 价 于 极 大 化 稀 朴 ,最 后 
得 到 的 基 向 量 a;(x,y) 具 有 简单 细胞 接受 域 的 主要 性 质 。 

2001 年 Aapo Hyvarinen 和 Patrik O. Hoyer 将 这 种 稀 下 编 码 的 原理 延 拓 到 复杂 细胞 
特性 和 结构 ,这 里 的 结构 指 的 是 基 函 数 (或 细胞 ) 的 聚 类 组 织 特性 。 思 路 如 下 : 在 ICA 的 基 
础 上 ,由 于 给 出 的 成 分 是 不 完全 相关 的 ,能 够 对 剩 下 的 相关 性 进一步 的 分 析 。 通 过 引入 一 个 


复杂 细胞 层 ,使 得 原来 的 稀 玻 编码 模型 变 为 图 1. 2 的 描述 。 因 此 , 蔡 代 简 单 细胞 响应 5;,, 的 









复杂 细胞 层 (局 部 汇聚 能 量 ) 
平方 修正 
简单 细胞 层 (线性 滤波 器 ) 








图 1.2 简单 -复杂 视觉 皮层 细胞 处 理 图 像 的 框图 
稀 琉 性 ,该 模型 给 出 了 局 部 刺激 响应 的 稀 玻 性 ,其 中 局 部 刺激 定义 为 : 


= Dai Jud (1.138) 


其 中 AG. PNAS ir fig MS 98 j 个 杂 细 胞 之 间 的 权重 函数 ,该 权重 函数 不 需要 从 输 
入 的 自然 图 像 中 学 习 , 而 是 固定 的 。 因此 需要 学 习 的 仍 是 着 滤波 器 w;， 相 应 的 似 然 函 数 通 
过 下 式 给 出 : 

logLC «D; «Eres swz etm ue) 一 236. ) (1.139) 
HT LG j) DE DL EE LI RICE T o; 的 丽 数 .其 中 G Je a Hi d 
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极 大 似 然 的 方法 求解 得 到 逆 滤 波 器 ru; ,进而 得 到 ao BE h S J Sp AA ORC Fo c PETE D s s 
在 任何 给 定 的 时 间 ,简单 细胞 的 非 零 响应 具有 空域 聚 类 的 特性 。 

2007 年 Thomas Serre, Lior Wolf. Stanley Bileschi、Maximilian Riesenhuber 和 
Tomaso Poggio 等 人 提出 了 类 似 灵 长 类 动物 视觉 皮层 信息 处 理 机 制 的 和 鲁 棒 目 标识 别 模型 。 
该 模型 处 理 图 像 的 机 制 与 灵 长 类 动物 视觉 皮层 中 腹 侧 视觉 通路 处 理 自然 场景 的 机 制 的 关系 
可 以 通过 图 1. 3 来 表示 。 
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图 1.3 灵 长 类 动物 视觉 皮层 的 等 级 模型 和 HMAX 模型 的 对 应 关系 


图 1. 3 的 左 侧 对 应 着 视觉 皮层 腹 侧 通道 中 处 理 自然 场景 的 等 级 模型 , 右 侧 对 应 着 
HMAX 模型 中 的 层次 结构 。 该 模型 处 理 自然 图 像 的 主要 流程 可 以 通过 图 1. 4 进行 描述 。 
该 模型 主要 基于 Maximilian Riesenhuber 和 Tomaso Poggio 两 人 提出 的 层次 目标 识别 算法 
(HI HMAX 模型 ) ,通过 简单 细胞 单元 S 与 复杂 细胞 单元 C 的 交替 组 成 ,S 单元 采用 
TUNING 操作 ,用 于 增加 目标 的 选择 特性 ; C 单元 具有 更 大 的 感受 野 范 围 , 它 通 过 MAX 操 
作 汇 聚 S 单 元 的 输出 ,从 而 引入 了 对 目标 尺度 和 平移 的 不 变性 。 在 此 基础 上 ,通过 在 该 模型 
的 第 三 层 S2 上 引入 特征 编码 字典 ,利用 字典 来 表征 Cl 层 上 的 输出 响应 ,得 到 S2 层 上 的 响 
应 ,再 通过 局 部 极 大 值 操 作 实 现 最 后 一 层 C2 层 上 的 中 层 特征 提取 ; 最 后 通过 简单 的 分 类 器 
设计 ,实现 复杂 场景 下 的 目标 识别 。 下 面 详 细 地 叙述 该 模型 每 一 层 上 的 操作 ,以 及 它 所 对 应 
的 神经 生理 方面 的 解释 。 

S1 层 : 对 于 一 幅 灰 度 图 像 通过 Sl 层 上 的 分 析 , 对 应 Hubel 和 Wiesel 在 哺乳 类 动物 的 
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图 1.4 HMAX 模型 


初级 视觉 皮层 ( 即 V1 区 ) 简 单 细胞 的 响应 。S1 层 上 主要 取 已 经 能 够 较 好 地 描述 初级 皮层 
上 简单 细胞 的 感受 野 的 Gabor 函数 形式 , 即 


EREN 
F(x,y) =€ ww cos( Zeo ] 


E = cosÜ + ysind (1. 140) 


Yo =— xsinÜ + ycos0 

通过 c 和 4 控制 滤波 器 的 尺寸 (文中 取 从 7X7 到 37X37, 每 隔 2 个 单位 , 共 16 个 尺度 ) ,用 0 
来 控制 方向 40, 至, 至, 于 ,一共 产生 64 个 滤波 器 ,对 每 一 幅 图 像 用 这 64 个 滤波 器 进行 
滤波 ,得 到 64 幅 图 。 

C1 层 : 该 层 主要 对 应 着 初级 视觉 皮层 上 的 复杂 细胞 的 平移 和 尺寸 的 不 变 特性 ,并 且 复 
杂 细 胞 相对 于 简单 细胞 ,具有 较 大 感受 野 。C1 层 主要 对 SI 层 上 的 响应 做 局 部 极 大 值 和 汇 
聚 处 理 , 即 对 每 相 邻 两 个 尺度 ,构成 一 个 带 ,这 样 便 可 以 形成 8 个 带 , 如 带 1 就 是 7X7 和 
9X9 尺度 上 所 对 应 的 滤波 器 的 输出 (每 一 个 尺度 上 都 是 4 个 方向 ); 在 每 一 个 带 上 ,有 两 组 
图 像 ,每 一 组 都 是 特定 的 滤波 器 下 的 4 个 不 同方 向 上 所 形成 的 4 幅 图 ,并 对 每 个 带 进行 如 下 
的 操作 ,两 组 中 对 应 着 相同 方向 的 2 幅 图 像 进行 滑 块 处 理 , 每 一 幅 图 像 先 在 给 定 的 窗口 尺寸 
KEREKE TF ,进行 滑 窗 处 理 , 每 一 个 窗口 内 的 最 大 值 记 为 该 窗口 的 代表 点 ,所 有 这 些 
代表 点 组 成 这 幅 图 像 的 新 描述 ; 然后 对 这 两 幅 图 的 新 描述 作 比 较 , 大 的 保留 小 的 去 掉 , 形 成 
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该 带 上 特定 方向 的 描述 图 ,此 带 上 有 4 个 方向 , 故 有 4 幅 描述 。 共 计 8 带 , 所 以 有 相应 的 32 
幅 描述 ,以 此 作为 Cl 层 上 的 响应 输出 。 

S2 E; 在 Cl 层 中 的 响应 上 进行 简单 的 随机 采样 或 者 学 习 的 方式 ,抽取 或 学 习 得 到 N 
“ 块 ”, 每 一 “ 块 " 上 有 4 个 方向 ,大 小 为 nXnX4, 其 中 n= 二 4,8,12,16; 每 一 “ 块 ”与 Cl1 层 上 的 
响应 进行 匹配 计算 , 当 * 块 "与 Cl 中 的 每 一 带 上 的 大 小 不 一 样 时 ,可 以 对 * 块 ?或 带 进行 插值 
或 者 抽样 , 它 的 匹配 度 通过 如 下 的 公式 来 计算 : 

ri = AIR? Ch 141) 

其 中 XX 为 Cl 层 上 的 响应 ,i 二 1,2,…, NN, 对 于 每 一 “ 块 ”, 与 Cl 层 上 的 每 一 个 带 上 进行 匹 
配 , 可 以 得 到 1X8 的 一 个 行 向 量 。 共 计 有 N 块 ,可 以 得 到 NX8 的 矩阵 。 

C2 层 : 对 S2 层 得 到 的 矩阵 ,对 每 一 行 取 最 大 值 ,最终 得 到 一 个 NX1 的 特征 向 量 作为 
这 幅 图 像 的 描述 。C2 层 上 的 响应 ,具有 平移 和 位 置 的 不 变性 表征 。 

最 后 ,在 学 习 得 到 的 特征 向 量 的 基础 上 ,通过 简单 的 分 类 器 设计 (SVM 或 者 Boosting) 
来 实现 复杂 场景 下 的 目标 识别 。SVM 应 用 于 多 类 判别 的 问题 可 以 采取 两 种 方式 ,一 种 是 一 
对 多 方法 ; 另 一 种 是 一 对 一 方法 。 目 前 ,关于 视觉 皮层 的 生理 研究 ,已 经 处 于 层次 目标 识别 
阶段 ,并 且 从 自 底 向 上 和 自 顶 向 下 的 双向 等 级 模型 中 解释 复杂 场景 下 的 目标 识别 机 制 。 对 
应 着 这 些 生 理 研 究 方 面 所 取得 的 进展 ,稀疏 神经 编码 的 计算 模型 也 从 早期 的 稀疏 编码 到 结 
构 稀 玻 、 判 别 稀疏 模型 ,发展 到 现在 的 前 馈 式 信息 传递 的 层次 化 稀 朴 模型 。 稀 朴 神 经 认 知 是 
一 种 基于 哺乳 动物 视觉 皮层 信息 处 理 的 机 制 ,其 为 神经 生理 基础 的 广义 目标 识别 计算 模型 。 
与 之 前 的 稀 朴 编码 不 太一 样 的 地 方 是 : 该 计算 模型 可 以 处 理 更 为 复杂 场景 下 的 目标 识别 问 
题 , 并 且 模 仿 哺乳 动物 V4 区 和 杜 下 皮层 上 细胞 感受 野 的 特性 ,使 其 具有 变换 不 变性 的 中 层 
特征 ,这些 特征 在 目标 的 判断 与 识别 任务 中 , 较 之 前 的 初级 视觉 皮层 上 ( 稀 玻 编码 ) 所 获取 得 
到 的 边缘 、 纹 理 、 轮 廓 等 初级 特征 具有 一 定 的 优势 。 


1.3 机 器 学 习 与 神经 网 络 


机 器 学 习 与 深度 学 习 的 根本 性 差别 是 追求 的 理念 不 同 。 机 器 学 习 在 中 小 规模 的 数据 上 
追求 精度 与 效率 ,所 以 花费 大 量 的 时 间 研 究 数据 的 先 验 特性 ,并 把 它 加 到 特征 学 习 中 学 习 得 
到 分 布 式 判别 性 特征 ,模型 可 以 拆 分 为 特征 学 习 和 分 类 器 /回归 器 设计 ; 而 深度 学 习 的 理念 
是 在 中 大 规模 数据 集 上 追求 简单 新 颖 和 通用 ,放弃 精确 ,不 强调 数据 的 先 验 特性 ,模型 讲究 
统一 的 端 到 端的 设计 方式 。 下 面 介绍 深度 学 习 中 仍 沿 ( 使 ) 用 的 机 器 学 习 和 神经 网 络 的 框架 
或 理论 基础 。 


1.3.1 机 器 学 习 


众所周知 ,数据 是 载体 ,智能 是 目标 ,而 机 器 学 习 是 从 数据 通 往 智能 的 技术 与 途径 ; 因 
此 ,机 器 学 习 是 数据 科学 的 核心 ,是 现代 人 工 智 能 的 本 质 , 它 可 以 从 数据 中 挖掘 出 有 价值 有 
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规律 的 信息 ,其 通用 的 框架 为 数据 、 模 型 优化 和 求解 。 下 面 从 框架 结构 出 发 ,主要 陈述 支撑 
矢量 积 、 贝 叶 斯 分 类 器 和 强化 学 习 这 三 个 方面 。 


1. 支撑 向 量 机 


问题 : 给 定 训 练 样本 集 ,其 中 输入 为 向 量 、 输 出 为 类 标 集 ; 如 何 基 于 该 数据 集 在 样本 空 
间 找 到 一 个 超 平面 ,将 不 同类 别 的 样本 分 开 。 若 输入 为 矩阵 ,要 求 在 不 进行 向 量化 操作 的 前 
提 下 进一步 改进 算法 (支撑 矩阵 机 、 支 撑 张 量 机 ) 。 
数据 : 训练 数据 集 为 {(x;,y;)) 六 1 ,其 中 x; € Ry; € (71.1). 
模型 : 假设 数据 集 是 线性 可 分 的 , 则 利用 线性 模型 , 即 
f(x) = wixtb (1.142) 
Hop w 和 2 是 模型 参数 。 
优化 : 优化 目标 函数 为 : 
min + || wll? 
wb (1.143) 
s.t y(Ow'x-FDIl. i=1,2,%,N 
求解 : 优化 目标 函数 为 一 个 凸 的 二 次 规划 问题 ,可 以 直接 利用 现成 的 优化 计算 方法 求 
解 。 另 外 ,根据 KKT 条 件 , 也 可 以 利用 其 对 偶 问 题 求解 ,首先 , 原 问 题 为 : 


max min L (w,b,@ ) = i ll wl]? + bad — y,(w'x, +6)) (1, 144) 
其 中 a = Gi ,as，… ,an) ,其 对 偶 问题 为 : | 
min max L(w,b, sa) (1. 145) 
通过 固定 w Lo OR fifa , 即 目 标 函 数 Dind a ) 关 于 w 和 2 的 偏 导数 为 零 得 到 如 下 的 条 件 
w= jai yi xi Hl Das vsy=0, 代 入 LOw'bsa) 可 以 消去 w 和 0, 仅 得 到 关于 e 的 目标 
EA 
max >a: -4 Da: ape yie yje XP ex 


S, Da: *yi—0 
求 出 a 后 便 可 以 得 到 w; 其 中 偏 置 0 的 求解 通过 平均 所 有 支撑 向 量 获取 : 


(Xe sx e) s (Xni) (1.147) 
sES 


ses 
其 中 S={i:w 二 0,i 一 1,2,…,N} 为 支撑 向 量 的 指标 集 。 
改进 一 : 从 问题 出 发 ,通过 数据 、 模 型 .优化 和 求解 四 部 分 ,分 析 了 数据 线性 可 分 情况 下 
的 支撑 向 量 机 。 但 是 ,如 果 线 性 不 可 分 时 ,需要 通过 特征 学 习 的 方式 对 数据 进行 处 理 ( 例 如 
升 维 等 ) ,使 得 处 理 后 的 数据 是 线性 可 分 的 ,假设 通过 如 下 的 投影 方式 进行 特征 学 习 
X = g(x) (1. 148) 


(1. 146) 


那么 上 面 的 优化 目标 , 便 写 为 : 
mins lw (1. 149) 
s.t yw glx) +b) Z1. i—12,-.N 

相应 的 对 偶 问题 中 ,关于 a 的 目标 函数 为 : 


max? ja; -iX« -saje yie yj” g(x?) » p(x;) 
= 2 Z (1.150) 


Bo Daey =0 


为 了 避免 直接 运算 eG + Cx; ) CA RENE 2s E (09 AE RT AEIR o BE E FRE FE FEF RO TT 
以 引入 函数 : 
K(x; xj) = pxT) * plx) (1.151) 
这 个 函数 C+ t HPF PK PRI. HH Ez RRA ALTE Z RAA LE PT ST AK VAR P8 UE 
ES. 
改进 二 : 当 输入 为 矩阵 时 ,为 避免 向 量化 可 能 会 引起 数据 的 拓扑 结构 变化 ,而 引入 支撑 
矩阵 机 ,其 中 数据 为 {Cxz y) UP x; ER” y € C1: 0) EAC A E EROR 


min qua “W) 二 zlwll. +CD h o»: + tr(WT «x, +b)) (1. 152) 
Hop l e | .为 核 范 数 , 即 ‖W | .为 矩阵 多 奇异 值 的 和 ,为 了 保持 局 部 结构 特性 ,h(，) 为 
hinge-loss 函数 : 
0 ucl 
hu) = (1.153) 
l—u ucl 


求解 方法 为 参数 迭代 优化 。 

改进 三 : 为 了 缓解 (假设 ) 线 性 可 分 与 线性 不 可 分 这 两 种 极端 情形 , 即 存在 着 一 个 超 平 
面 将 数据 完全 分 开 ( 所 有 样本 完全 划分 正确 可 能 会 引起 学 习 参 数 任务 困难 ), 所 以 引入 软 间 
隔 策略 , 即 在 假设 的 前 提 下 允许 一 些 样本 的 划分 出 错 ,从 而 改进 优化 目标 函数 为 ， 


min + | wl]? 二 C>6 
wb 2 SI 


sto yx xd >1—&, lot 


& 20,1 — 0,2, N 
这 就 是 常用 的 软 间隔 支撑 向 量 机 ,通过 拉 格 朗 日 乘 子 法 得 到 的 增 广 拉 格 朗 日 函数 为 : 


max minL (w,b,é,@ .p) 
40.420 wide 


= il wle +CD E+ ad —&—y,(w'x, +5))— Dye & 1.155) 
= eer a 
求解 与 之 前 类 似 。 


改进 四 : 当 输 入 数据 为 zxER272 ev ,为 了 保持 数据 的 拓扑 结构 特性 ,引入 支撑 张 量 


gom 
后 CD meses. ACER C 
中 34 


g BV BEE (Ca; oy} EP y;€E1{ 一 1, 十 1) ,优化 目标 函数 为 : 


d ` 
min > || wa, * wa, °= e Way I? ene 


N (1.156) 
Si »(«.TI Xa, +6) 21—&6,&6204-—1,3,N 
n=l 
其 中 的 两 个 操作 解释 如 下 : 第 一 个 是 外 积 , 即 
W = Wa, ° We, wu € Rad (1, 157) 
其 中 we € R^ ,那么 W 中 每 一 个 元 素 的 值 通过 如 下 的 公式 求解 : 
Wi sin set sin) = wa Gt Wy, ig) e Wa, Cin) 
i —10,2,.-.d 
ig = 1,2,°%*,d2 (1.158) 
in = 1,2,° sdy 
第 二 个 是 dy 模 态 的 积 , 即 
N 
zl[ XWwa, = X XiWa, X2Wa, X ttt XNWay 
n=l 
而 各 Rdexdsx…xdN ,denote x! 
一 (dia, + Wa, Ci >) X2 Wa, *** XNWay 
FÉ (1.159) 
d, Ds 4474 denote z? 
= ( Da, * Wa, (iz >) Xa Wa, see XnWay 
i=l 
= ER 


求解 与 之 前 类 似 , 利 用 拉 格 朗 日 增 广 目标 函数 的 对 偶 问题 求解 。 
2. Softmax 分 类 器 


Softmax 函数 是 将 多 个 标量 映射 为 一 个 概率 分 布 ,对 于 训练 数据 集 {(s y) Hs € 
R” yE {1,2,…,C}, 其 中 CC 为 类 别 个 数 。 通 常 ,通过 特征 学 习 将 数据 集 映 射 为 {(x;， 
yo tha Hop x; ER"; 模型 为 ， 





P(y=1/x) en 
x P(y-2|x» EU 
= ll 4I 1 le Re (1.160) 
Ply =C|x) aie 
3B b Ac SURE vr (646 H br R: 


N c 
nin >| - Moy; = O * logPGy; — | xn | +AR (0) (1.161) 
a i=1 c=1 


其 中 8 ACRI EE RR BBO = (01 ,0,,…,0c),R(。) 为 正则 化 约束 项 。 利 用 梯度 下 降 的 
方法 求解 参数 0 , 便 得 到 Softmax 分 类 器 。 


3. 强化 学 习 


强化 学 习 是 机 器 学 习 的 一 个 分 支 , 它 讲究 在 一 系列 的 情景 之 下 ,通过 多 步 恰当 的 决策 来 
达到 一 个 目标 ,是 一 种 序列 多 步 决策 的 问题 。 与 传统 的 机 器 学 习 算法 不 同 ,需要 对 情景 及 恰 
当 的 决策 之 间 进行 搜索 ,根据 反馈 对 这 种 搜索 策略 进行 奖 罚 , 与 人 类 与 环境 的 交互 方式 类 
似 。 强 化 学 习 任 务 通常 用 马尔 可 夫 决 策 过 程 来 描述 : 包括 环境 已 ,状态 空间 X、 机 器 搜索 策 
略 了、 动作 空间 A、 反 馈 机 制 V( 即 当前 环境 对 搜索 策略 选择 下 的 动作 的 积极 /消极 反馈 ) 等 ， 
其 中 每 个 状态 x € X 为 感知 器 对 当前 环境 的 描述 ,在 某 个 合理 的 策略 选择 下 pEP( 需 要 训 
练 学 习 ) ,得 到 的 动作 a€ A 作用 在 当前 的 状态 x 上 ,使 得 环境 从 当前 状态 按照 某 种 概率 转 
移 到 另 一 个 状态 y € Xs 状态 改变 后 的 环境 会 根据 从 状态 zx 到 状态 y 的 积极 或 消极 特性 (这 
种 特性 通过 条 件 概 率 来 刻画 ) 对 这 个 策略 选择 p 进行 奖 罚 。 

策略 作为 状态 到 动作 之 间 的 映射 

a= p(x) (1. 162) 
即 在 状态 x 下 ,根据 策略 p, 采 取 动 作 a。 有 了 这 个 定义 ,那么 需要 回答 两 个 问题 ; 一 是 策略 
如 何 选 取 ; 二 是 如 何 判 断 一 个 策略 的 好 坏 ; 这 两 个 问题 是 相辅相成 的 ,可 以 通过 一 个 值 
函数 : 
re = V(x, sa, = p(x)) (1. 163) 
即 在 策略 p 下 ,从 状态 x 出 发 ,执行 动作 w 所 带 来 的 累积 奖赏 。 

那么 寻找 策略 的 目标 便 是 让 累积 的 奖赏 最 大 ,这 里 需要 强调 的 是 : 大 部 分 强化 学 习 的 
模型 都 是 定义 在 马尔 可 夫 链 上 的 , 即 状态 ` 动作、 累积 奖赏 ,再 到 下 一 个 状态 动作、 累积 奖赏 
等 ; 且 下 一 个 状态 只 与 当前 的 状态 有 关 ,与 以 前 的 状态 没有 关系 ; 基于 此 , 易 得 到 如 下 的 一 
个 递归 式 子 : 

VGsa)— Elna tae rar HF tras 十 … | xoa] 


= E[r t 3 * VG) | za] (1.164) 
其 中 的 » rd Be, eth (E eK BOT Sy 
V* (x,a) = Elna + 7° V^ Ga) | Zisas] (1.165) 


这 就 是 著名 的 Bellman 方程 , 它 是 求解 值 函数 的 关键 , 它 可 以 按照 马尔 可 夫 过 程 展开 形 成 一 
个 树 状 的 结构 ,通过 将 这 些 奖 赏 综合 起 来 ,然后 便 可 以 将 得 到 状态 ` 动 作 、 累 积 奖赏 不 断 地 迁 
REE. 
但 通常 无 法 做 到 对 所 有 的 状态 和 动作 进行 展开 (空间 体 量 太 大 ) ,那么 像 种 瓜 一 样 ,一 次 
种 不 好 ,就 多 种 几 次 ,通过 求 取 平 均 的 累积 奖赏 来 作为 期 望 累 积 奖赏 的 近似 ,这 样 便 可 以 估 
算 值 函数 了 。 假 设 已 经 有 NN 次 实验 估算 出 一 个 值 函数 为 Vw(Cziya) ,如果 现在 增加 一 次 实 
验 ,那么 可 以 在 原来 的 值 函 数 上 进行 更 新 得 到 新 的 值 函 数 : 
Vyn Ga) = Vy Ga) c alria 49 * Vy Car aie) —VuGusa)] (1.166) 
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此 处 a 为 学 习 速 率 ( 调 整 步 长 )。 一 旦 得 到 值 函数 ,就 得 到 了 最 优 策略 ,在 当前 的 状态 下 , 通 
过 枚 举动 作 集 合 , 选 择 最 大 的 值 函 数 所 对 应 的 动作 即 可 。 

在 人 工 智能 领域 ,感知 和 决策 能 力 是 衡量 智能 的 指标 。 深 度 学 习 具 有 和 较 强 的 感知 能 力 ， 
但 是 缺乏 一 定 的 决策 能 力 ; 而 强化 学 习 具 有 决策 能 力 , 但 对 感知 问题 束手无策 ; 因此 ,将 两 
者 结合 起 来 形成 深度 强化 学 习 , 优 势 互补 ,为 复杂 系统 的 感知 决策 问题 提供 了 解决 思路 。 


1.3.2 神经 网 络 


神经 网 络 是 由 具有 自 适应 的 简单 单元 组 成 的 广泛 .并行 .互联 的 网 络 , 它 的 组 织 能 够 模 
拟 生物 神经 系统 对 真实 世界 物体 所 做 出 的 交互 反应 。 通 常 , 在 机 器 学 习 中 谈论 的 神经 网 络 
指 的 是 神经 网 络 学 习 , 或 者 说 是 机 器 学 习 与 神经 网 络 这 两 个 学 科 领 域 的 交叉 部 分 。 


1. 径 向 基 网 络 


径 向 基 网 络 是 一 种 单 隐 层 神经 网 络 , 它 使 用 径 向 基 函 数 作 为 隐 层 神经 元 激活 函数 ,输出 
层 则 是 隐 层 神经 元 输出 的 线性 组 合 , 即 输入 xE R^ ,输出 y€ R ,模型 为 
K 
y= De: * pGr«ci h) 
ici (1.167) 
Gc B) = gla 
其 中 开 为 隐 层 节点 的 个 数 ,p 79 £8 16] E BR TC. BRC; B. 分 别 为 中 心 与 乘 性 偏 置 。 利 用 预测 
与 期 望 输出 之 间 的 平方 差 最 小 求解 参数 ci ,8 so. ,得 到 的 优化 目标 函数 为 ; 








N K 
min x7 |» Xos + Gs «c, +B) Stall w IE (1.168) 
cho IN im j=l 


求解 通常 包括 两 步 , 一 是 确定 隐 层 上 每 一 个 单元 的 中 心 c;, 通 过 随机 采样 或 者 聚 类 方法 等 ; 
二 是 利用 梯度 下 降 的 方法 确定 参数 B, eo, o 

注意 : Park 和 Sandberg 于 1991 年 证 明 具有 足够 多 的 隐 单 元 个 数 的 径 向 基 网 络 能 以 任 
意 的 精度 逼近 任意 连续 函数 。 


2. 玻 尔 兹 曼 机 / 受 限 玻 尔 兹 曼 机 


玻 尔 兹 曼 机 或 者 受 限 玻 尔 兹 曼 机 是 一 种 基于 能 量 的 模型 , 即 能 量 最 小 化 时 网 络 模型 达 
到 理想 状态 。 网 络 结构 分 为 两 层 : 显 层 v€ {0,1)" 用 于 数据 的 输入 与 输出 , 隐 层 h€ (0.1)" 
则 被 理解 为 数据 的 内 在 表达 。 

受 限 玻 尔 兹 曼 机 : 数据 集 为 {v;} 六 1 (本 质 上 , 波 尔 兹 曼 机 和 受 限 波 尔 兹 曼 机 为 自 编 码 网 
络 , 是 一 种 无 监督 学 习 方式 ) ,关于 受 限 (同一 层 的 单元 相互 不 连接 ) 波 尔 效 曼 机 建立 的 能 量 
函数 为 : 

E(v,h) —— (a* + v Eb - hi- v! «weh (1. 169) 

基于 能 量 函 数 ,可 以 建立 v,h 的 联合 分 布 函数 : 

















ame 1 —E(v.h) 
PG.) = Le 
Z (1.170) 
= Mem 
E 
Xt FRE PEAS v HEB O= Ca bw) Bü EF ,通过 下 式 便 得 到 对 v 的 一 个 估计 : 
P(h | v,0) Pl(v|h,0) ~ 
v], h— à (1.171) 
其 中 的 两 个 条 件 概率 分 布 计算 如 下 : 
Pth| v,0) = 1 o e eT wh) PG | h,0) = d NODE 
z Zn (1.172) 
Z, =Plv)+Z Z, = PO -Z 
进一步 ,在 数据 集 上 构建 优化 目标 函数 为 : 
N N 
max J (0) — SM logP(3,) = >)log >) P64, ID 
i=] i=) h 
N 
一 (zioe Zee) — NlogZ 
i=l] h 
N 
= PIX — Nlog ye &* (1.173) 
i=l h vh 
求解 通过 对 比 散 度 算法 , 即 如 下 的 公式 估计 参数 值 : 
a Io on Lan ty: 
xL x NŠ MDD -NS à, CO h, G) 
OF dom. v - Pe x 
aa N21 9 O Nu ô, (i) (1.174) 
OF Aye ey Pye 
J; ~ RhG) x2 h, (7) 
Jtr 0 d fI, H: 
v—h— 6, — h, — ô, —h, — (1.175) 


HAHO — CÓ. h ACA TSE PWR — Ho ECE A; UH COD = ôr, 
Ris) , 则 称 为 二 阶 对 比 散 度 算法 ,以 此 类 推 ,得 到 上 阶 对 比 散 度 算法 。 

玻 尔 兹 曼 机 : 与 受 限 波 尔 兹 曼 机 的 区 别 在 于 : 不 限制 同一 层 的 单元 是 相互 独立 的 , 即 
可 以 相互 连接 ,其 推导 公式 与 受 限 玻 尔 兹 曼 机 类 似 , 记 x=(x,,x,)ER"" 有 目 x,= 二 v,x, =h, 
其 能 量 函 数 为 : 

E(x) —— (b «x x e wex) (1.176) 
进一步 ,概率 密度 函数 为 : 
PG) = lese (1.177) 
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中 其 中 Z = >)erseo ,假设 给 定 的 数据 集 服 从 独立 同 分 布 , 则 优化 目标 函数 为 ， 
max J (0) = NDlegP) (1.178) 
其 中 x 是 第 个 样本 vw" ,求解 与 之 前 的 对 比 散 度 算法 类 似 。 
3. 小 波 神经 网 络 


小 波 神经 网 络 是 指 沿 用 神经 网 络 的 结构 ,其 中 超 参数 (激活 函数 ) 选 择 小 波 函 数 y(1) 
(具有 解析 形式 ) , 选 定 特定 的 小 波 后 ,其 参数 包括 尺度 因子 和 平移 因子 。 

训练 数据 集 为 {(xi y0 1a ,其 中 x; € Ry; ER ,进一步 ,建立 的 网 络 模型 (三 层 结 构 ， 
即 输入 、 隐 层 ( 节 点 个 数 为 mw) 和 输出 为 : 


u: =x * WO: si) 


= ui — bi 
m= of Zi ) (1.179) 


y= Sa eh; 


这 里 的 uhi 分 别 为 隐 层 第 i 个 节点 的 输入 与 输出 ,其 中 网 络 参数 为 : 
0 = (w,b,asc) (1. 180) 


基于 模型 建立 的 优化 目标 函数 为 : 


N 
minJ (0) — x21 ly — $: l} HARO (.18D 


其 中 3; 为 预测 输出 ,R(0) 为 正则 项 (约束 在 权 值 矩阵 w 和 c 上 )。 求 解 依旧 采用 梯度 下 降 的 
方式 。 

神经 生理 学 家 的 最 新 研究 表明 : 大 脑 的 视觉 皮层 上 的 神经 元 是 具有 多 分 辨 可 视 、 局 部 
响应 和 方向 等 特性 的 ,为 了 模拟 这 种 特性 ,小 波 的 优势 在 于 其 本 身 具备 这 些 特 性 。 
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深度 前 馈 神 经 网 络 一 一 生物 视觉 的 镜子 
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2.1 神经 元 的 生物 机 理 


神经 元 是 以 生物 神经 系统 的 神经 细胞 为 基础 的 生物 模型 。 在 对 生物 神经 系统 进行 研究 
时 ,对 神经 元 的 生物 机 理 进行 建 模 , 得 到 基于 神经 元 的 计算 模型 一 一 人 工 神 经 网 络 ( 或 称 为 
神经 网 络 )。 在 以 人 工 智 能 为 导向 的 时 代 , 对 神经 元 生物 机 理 ( 特 别 是 自学 习 功 能 ) 的 研究 成 
为 神经 网 络 能 否 在 系统 辨识 .模式 识别 和 智能 控制 等 领域 实现 技术 再 次 突破 的 核心 。 


2.1.1 生物 机 理 


神经 元 由 细胞 体 、 树 突 和 轴 突 三 部 分 组 成 ,如 图 2. 1 所 示 ; 其 中 的 细胞 体 是 由 很 多 分 子 
形成 的 综合 体 ,内 部 含有 一 个 细胞 核 ,核糖 体 .原生 质 网 状 结构 等 , 它 是 神经 元 活动 的 能 量 供 
应 地 ,在 这 里 进行 新 陈 代谢 等 各 种 生化 过 程 ; 树 突 是 接收 从 其 他 神经 元 传人 信息 的 入口 ; 
轴 突 是 将 神经 元 兴奋 信息 传 出 的 出 口 。 
树 突 
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图 2.1 神经 元 的 结构 


另外 ,一 个 神经 元 与 另 一 个 神经 元 之 间 相 联系 并 进行 信息 传送 的 结构 为 突 触 ; 注意 两 
个 神经 元 并 不 直接 连通 ,彼此 联系 的 方式 是 通过 突 触 这 种 结构 。 

目前 ,根据 神经 生理 学 的 研究 ,已 发 现 神经 元 有 4 种 行为 , 即 能 处 于 抑制 或 兴奋 状态 、 能 
产生 爆发 和 平台 两 种 情况 、 能 产生 抑制 后 的 反 冲 、 具 有 适应 性 ; 另外 , 突 触 也 有 4 种 行为 , 即 
能 进行 信息 综合 、 能 产生 渐次 变化 的 传送 .有 电 接 触 和 化 学 接触 等 多 种 连接 方式 、 会 产生 延 
时 激发 。 关 于 神经 元 的 信息 处 理 与 传递 机 制 具有 如 下 的 特性 : 神经 元 的 抑制 和 兴奋 特性 
(根据 细胞 膜 内 外 不 同 的 电位 差 来 表征 ) ,传递 的 国 值 特性 ( 当 神 经 元 接收 信息 时 , 膜 电 位 逐 
渐变 化 , 当 超出 定 值 时 , 才 会 产生 脉冲 沿 轴 突 传递 )、 信 息 综 合 特性 (对 不 同 神经 元 传递 的 不 
同 成 分 的 神经 递 质 可 在 同一 个 神经 元 的 膜 电位 内 变化 并 产生 作用 )、 神 经 元 与 突 触 具有 数 
( 字 ) 模 ( 拟 ) 转 换 功能 。 
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但 是 ,大 脑 中 的 神经 网 络 非常 复杂 ,尽管 解释 神经 元 间 线 性 连接 的 分 子 机 制 已 经 被 描述 
了 很 多 次 ,但 是 对 于 其 神经 元 分 支 的 工作 机 制 ( 生 物 学 功能 ) ,人 研究 者 却 并 不 清楚 ,例如 抑制 
神经 元 (如 何 阻止 其 他 神经 元 放电 ) 如 何 执行 赢家 通 吃 的 策略 (这 是 一 种 简单 的 竞争 机 制 , 保 
证 了 使 用 频率 较 高 .输入 较 强 的 环 路 连接 被 保留 下 来 并 加 以 强化 ,而 使 频率 低 、 输 入 较 弱 的 
连接 被 去 除 , 从 而 使 系统 资源 得 到 最 优化 的 分 配 , 神 经 环 路 的 连接 更 加 精确 )? 大 脑 网 络 中 
这 种 高 度 分 叉 的 神经 元 之 间 是 如 何 连 接 的 ? 研究 人 员 表明 ,包括 兴奋 神经 元 以 及 辅助 神经 
元 中 的 抑制 神经 元 无 法 证 明 回路 的 效率 。 类 似 的 ,任何 一 种 没有 察觉 收敛 神经 元 和 稳定 神 
经 元 差异 的 抑制 神经 元 的 安排 都 要 比 可 以 察觉 到 这 一 区 别 的 安排 更 低 效 。 那 么 ,假设 进化 
趋 于 找到 解决 工程 问题 的 有 效 解 决 方案 ,模型 既 告 诉 我 们 问题 的 答案 就 在 大 脑 中 ,也 提出 了 
一 个 适 于 经 验 研 究 的 问题 : 真实 的 抑制 神经 元 能 否 展示 出 类 似 收敛 神经 元 和 稳定 神经 元 之 
间 的 区 别 (本 段 参考 : 学 界 MIT 将 生物 学 机 制 引入 神经 网 络 , 新 模型 或 揭 开 抑制 神经 元 功 
能 ; Science; 科学 家 揭秘 大 脑 神经 元 网 络 形成 的 复杂 机 制 ) 。 


2.1.2. 单 隐 层 前 馈 神 经 网 络 


神经 网 络 是 以 神经 元 的 数学 模型 为 基础 来 描述 的 ,其 模型 由 网 络 拓扑 、 节 点 特点 和 学 习 
规则 来 表示 ,其 吸引 力主 要 有 以 下 四 点 : 

CD 并 行 式 分 布 处 理 ; 

(2) 高 度 鲁 棒 性 和 容错 能 力 ; 

(3) 分 布 存储 及 学 习 能 力 ; 

(4) 能 充分 允 近 复杂 的 非 线 性 关系 。 

下 面 根据 神经 元 的 特性 和 生物 学 功能 可 以 知道 ,神经 元 是 一 个 多 输入 单 输出 的 信息 处 
理 单元 ,而 且 , 它 对 信息 的 处 理 是 非 线性 的 ,将 其 抽象 为 一 个 简单 的 数学 模型 如 图 2. 2 所 示 。 
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图 2.2 神经 元 的 数学 模型 
具体 的 数学 公式 如 下 : 
v= Daw: +b 
i=1 
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典型 的 激活 函数 有 sigmoid 函数 、tanh PA £6 18] BE PR C/K PE TER TE LG CReLU) , 
softplus 函数 等 ,对 应 的 公式 为 : 





sigmoidCr) = Pe 
tanh(z) = © TU (2.2) 


ReLU(z) = max(0.2) 
softplusCx) = log(1 + e*) 
(E RETE EE I 5 A BE HR Ls HUE A 100 d , BEDEA Y JR Rb s EE PE: o 
与 其 他 激活 函数 相 比 ,修正 线性 单元 具有 生物 上 的 可 解释 性 ( 即 描述 神经 元 的 这 些 特性 ) 。 
另外 ,softplus 函数 的 导数 为 logistics 函数 , 它 的 名 称 源 于 它 是 修正 线性 单元 的 平滑 形式 ， 
虽然 它 也 具有 单 侧 抑 制 、 宽 兴奋 边界 特性 ,但 是 没有 稀 
Wil is ETE. 
基于 神经 元 的 数学 模型 ,根据 网 络 连接 的 拓扑 结 
构 ,神经 网 络 模型 可 以 分 为 前 向 网 络 ( 有 向 无 环 ) 和 反 
馈 网 络 (无 向 完备 图 ,也 称 循环 网 络 ), 对 于 反馈 网 络 ， 
网 络 模型 的 稳定 性 与 联想 记忆 有 着 密切 的 关系 ， 
Hopfield 网 络 、 玻 尔 兹 曼 机 网 络 都 属于 这 种 类 型 。 而 
对 于 前 向 网 络 , 源 于 简单 非 线 性 函数 的 多 次 复合 ,网 络 
结构 简单 ,易于 实现 。 下 面 主要 介绍 前 向 网 络 ( 单 隐 层 
前 馈 神 经 网 络 ) ,其 网 络 结构 如 图 2. 3 所 示 。 对 应 的 数 


学 公式 为 : 





输入 层 隐藏 层 输出 层 











图 2.3 单 隐 层 前 馈 神经 网 络 


h”? = e Sx; Ww? e) 
i=l 


y= e( 3 wi? +a) 


get 


其 中 输入 xER" , 隐 层 输出 AER" ,输出 y ERS, w? € Rm" 5 p? ER" 分 别 为 输入 到 隐藏 层 
的 权 值 连 接 和 矩阵 和 偏 置 ,w2 ERK GO € RF 分 别 为 隐藏 层 到 输出 层 的 权 值 连接 矩阵 和 
WE o 和 o? 为 相应 的 激活 函数 。 
实际 应 用 中 ,假设 训练 数据 集 为 : 
(x y” Hn 
x”? € R" (2.4) 
y? ERK 
输入 与 输出 之 间 的 模型 为 公式 (2. 3), 即 


(2, 3) 





了 TG.0 = eX (Xs + wi? +a) E" eo) (2.5) 
其 中 的 参数 0 一 (w b? iw? Lb? ) ,进一步 优化 目标 (损失 项 和 正则 项 构成 ) 为 : 
N 2 
minL (0) = x2: I y? — TG 50) I-A] | wo Iz (2.6) 
通过 梯度 下 降 的 方法 ,求解 参数 0, 即 
Ot = Qa 20 |, p 
aL) (2.1) 
» | 和 = 738 ora 
Ft A EAR RK e 的 增加 ,参数 将 收敛 (间接 可 通过 目标 函数 L(0) 来 可 视 化 进行 观察 ), 即 
lim = 0° (2.8) 


收敛 的 原因 是 因为 上 述 目标 函数 为 凸 的 。 注 意 , 对 于 优化 目标 函数 (2. 60 ,本 可 以 直接 利用 
闭 形式 解 直接 求 出 ,但 是 数据 量 大 的 时 候 ,存储 及 读 取 将 会 非常 耗 时 ,所 以 通常 利用 随机 梯 
度 下 降 ( 即 批量 化 的 处 理 ) 来 求解 。 对 于 神经 网 络 拓扑 结构 的 确定 ,Hornik 等 人 已 证 明 : 若 
输出 层 采 用 线性 激活 函数 , 隐 层 采用 Sigmoid 函数 , 则 单 隐 层 神 经 网 络 能 够 以 任意 精度 逼近 
任何 有 理 函 数 。 


2.2 多 隐 层 前 馈 神经 网 络 


沿用 单 隐 层 前 馈 神经 网 络 的 分 析 , 当 隐 层 个 数 超过 2 层 ( 包 括 两 层 ) 时 , 称 为 多 隐 层 前 馈 
神经 网 络 ,或 深度 前 馈 神 经 网 络 ,其 网 络 结构 如 图 2.4 所 示 。 














图 2.4 多 隐 层 前 馈 神经 网 络 


这 里 需要 指出 的 是 深度 前 馈 神经 网 络 的 拓扑 结构 是 : 多 隐 层 、 全 连接 且 有 向 无 环 。 基 于 
图 2.4, 利 用 下 面 的 记号 ,给 出 网 络 输入 与 输出 之 间 的 模型 : 
输入 xER" ,输出 y € R', 隐 层 的 输出 记 为 : 





qmm 学 习 、 优 化 1 识别 (六 


Q h? = po (Siue x a 


ge 


1=1,2,.…,L (2.9) 
ho =x 
h? =y 
需要 注意 的 是 ,除去 输入 层 hO Sh? , 隐 层 的 个 数 共 计 工 一 1 层 , 对 应 的 超 参 数 
OF BC 、 隐 单元 个 数 .激活 函数 ) 为 : 

工 十 1 一 层 数 (包含 输入 与 输出 ) 

一 每 一 层 上 的 维 数 (2.10) 

[o g? , CD oP] 一 激活 函数 


EERE n, =m fln, =s, J AFB BGC : 
0 = (0, 0. 0.) 
h = (w^ € Rn, € R") (2.11) 
1 一 1,2,…, 

那么 输入 与 输出 的 关系 为 : 


y=h? = e E è wi? +b) 一 记 为 GO AE 0.) 


i=l 


= gP ( Z| 5 MUS e wi? + wip + v») 
as i™ 
— ju pP (o7? h ,0, ,),0,) 
mom gP (pP (gp (xO) 01) OL) > dU frs 0) (2.12) 


实际 应 用 中 ,对 于 训练 数据 集 : 
(x oy” ns 


y” € R 
所 得 到 的 优化 目标 函数 (损失 项 和 正则 项 构成 ) : 
min J (0) = LG) +AR 0) (2.13) 
HPSS San OUR: 
Hy, $2 = ll y —5. IB 
N 
L0) = NÈ lOS (2.10 


RW) = » la l = 2 lw lẹ 
注意 损失 函数 1(。) 有 很 多 形式 : 能 量 损 失 。 tT res 正则 项 RC + BRT FUR E JE 


gs Ries CO 
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ep 
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斯 范 数 (防止 过 拟 合 ) 外 ,还 有 稀疏 正则 (模拟 生物 响应 特性 ) ,此 处 不 再 著述 ,后 续 章 节 会 有 e 


所 介绍 。 


2.3 反 向 传播 算法 


针对 优化 目标 函数 公式 (2. 13) ,如 何 求解 ? 首先 ,要 确定 目标 函数 的 凸 性 与 非 凸 性 ,如 
果 可 行 域 ( 即 参数 的 选取 范围 ) 是 凸 集 的 话 ,定义 在 该 凸 集 上 的 凸 函数 为 凸 优化 , 即 求 得 的 解 
不 依赖 于 初 值 的 选取 且 为 全 局 最 优 解 ; 通常 ,深度 前 馈 神 经 网 络 的 优化 目标 函数 为 非 凸 的 ， 
所 以 参数 的 求解 依赖 于 初始 参数 的 设置 ( 即 可 行 域内 存在 大 量 的 鞍点 与 局 部 极 值 点 ), 如 果 
设置 合理 ,可 以 避免 过 早 陷 入 局 部 最 优 ; 其 次 ,为 了 说 明 反 向 传播 算法 (基于 梯度 下 降 方 
法 ) ,具体 描 述 如 下 , 即 通过 如 下 的 方法 来 更 新 参数 : 
0P =O? —a + 10 |,» 


9L(0) IR) (2.15) 
90 930 


其 中 a 为 学 习 速 率 , 具 体 的 关于 每 一 层 上 的 参数 更 新 为 : 
r. = 08 —a « 10, |a qi 








?0 |,» = 


ILO) IR) (2.16) 


90, lam» 90, le-di-? 
这 里 ,0 为 第 1 层 第 k WARI SEB ET PD BERE F RA REA LIE HIER HR 
链 式 法 则 ,将 其 展开 为 : 

aL(0) hP = ane? an? ILD) 











70, lamp = 

















20, 30, "a C7 7 y» GRP (2.17) 
其 中 误差 传播 项 记 为 ， 
= Le (2.18) 
进一步 利用 0 二 (w? ,bp?), 则 隐 层 输出 关于 对 应 的 参数 求 导 为 : 
Oh? — 3g? (i) T «wo $b) yl , 
aw? ay h^» Q”) 
Ih? ag” KYT » w? +b) "m (2.19) 
3p? apo Is) 





其 中 * 为 Hadamard 积 。 从 公式 (2. 17) 可 以 看 出 ,注意 公式 (2. 17) 是 损失 项 关于 参数 的 求 
导 ,而 正则 项 关于 参数 的 导数 为 : 
aR) 9/ 2) _ 9G Ii 
a0 — AÈ lla Il +) = -m (2. 20) 
通常 ,正则 项 中 的 约束 仅仅 针对 权 值 矩阵 ,而 偏 置 不 加 正则 约束 ,所 以 有 : 











他 CD 深度 学 习 、 ACER O) 
Q^ 
AR)  2]|w?l£ 
中 aw? aw? £ = 2w® 
(2.21) 
ARC) Alw lt _ g 
3b? WP 


注意 : 反 向 传播 算法 的 核心 含义 是 : 即 优化 目标 函数 J(0) 中 关于 第 | 个 隐 层 参数 0 的 
梯度 下 降 量 ,分 别 由 损失 项 L(9) 和 正则 项 R(0) 关 于 第 1 个 隐 层 参数 0, 的 梯度 (一 阶 导数 ) 决 
定 ,其 中 通过 引入 误差 传播 项 ( 式 (2. 18)) 来 实现 误差 的 反 向 传播 。 所 以 前 馈 神 经 网 络 的 训 
练 分 为 两 步 : 一 是 根据 当前 的 参数 值 ,计算 前 向 传播 过 程 中 每 一 层 上 的 输出 值 ; 二 是 根据 
实际 输出 与 期 望 输出 之 间 的 差 来 反 向 传播 计算 每 一 层 上 的 误差 传播 项 ,结合 每 一 层 输 出 关 
于 该 层 参数 的 偏 导数 ,实现 每 一 层 参 数 的 更 新 ; 重复 这 两 步 ,直至 该 过 程 收敛 (图 2.5 所 
示 )。 注 意 的 是 , 当 网 络 层 数 很 深 的 时 候 ,误差 关于 每 一 层 上 参数 的 梯度 下 降 量 会 随 着 输出 
到 输入 端的 传播 过 程 逐 渐 衰减 ( 即 越 靠近 输出 端 ,下 降 量 越 大 , 越 靠近 输入 端 ,下 降 量 越 小 ， 
甚至 下 降 量 几乎 为 零 ), 使 得 整个 网 络 很 难 通 过 训练 获取 较 好 的 层级 参数 ,从 而 避免 可 行 域 
上 的 鞍点 与 局 部 极 值 点 ,往往 陷入 局 部 最 优 ,这 就 是 梯度 弥散 问题 。 





误差 反 向 传播 








输入 层 隐藏 层 输出 层 











信息 前 向 传播 


图 2.5 反 向 传播 算法 的 图 示 





2.4 深度 前 馈 神经 网 络 的 学 习 范式 


深度 前 馈 神经 网 络 仍 沿用 机 器 学 习 的 范式 , 即 数 据 、 模 型 .优化 和 求解 4 个 部 分 。 机 器 
学 习 强 调 基 于 数据 先 验 的 特征 学 习 ( 包 括 特征 提取 与 筛选 ,得 到 可 分 性 判别 特征 ) 与 分 类 器 
的 设计 ,并 且 模型 的 表达 能 力 受 限于 (统计 或 变换 ,本 质 上 为 浅 层 ) 特 征 学 习 , 优 势 在 于 优化 
目标 函数 可 利用 凸 优化 相关 算法 或 软件 快速 地 求解 ,其 核心 理念 在 于 追求 精度 、 速 度 。 
图 2.6 为 特征 学 习 : 可 分 性 判别 特征 的 学 习 图 示 。 

相 较 于 机 器 学 习 , 深 度 前 馈 神经 网 络 减 小 了 对 数据 先 验 的 依赖 性 ,模型 对 数据 的 表征 能 
力 (挖掘 数据 深层 的 语义 信息 或 统计 特性 ) 随 着 层级 的 加 深 ( 线 性 与 非 线 性 逐 层 复合 ) 而 呈现 
愈 来 愈 深刻 ,本质 的 刻画 ; 同时 模型 的 缺点 有 : 








原始 数据 特征 空间 











图 2.6 特征 学 习 : 可 分 性 判别 特征 的 学 习 


(1) 训练 阶段 ,有 类 标 数据 较 少 ,网 络 模型 参数 较 多 ,训练 不 充分 , 易 出 现 过 拟 合 现象 。 
(2) 优化 目标 函数 为 非 凸 优化 问题 ,依赖 于 初 值 的 选取 。 选 择 较 好 时 ,可 以 避免 过 早 地 
陷入 局 部 最 优 , 求 得 的 解 逼 近 最 优 解 ; 若 选择 不 好 时 ,网 络 易 出 现 欠 拟 合 , 如 图 2.7 所 示 。 














-4 4 








图 2.7 可 视 化 非 凸 优化 问题 一 一 局 部 极 小 值 


C3) 利用 反 向 传播 算法 优化 求解 时 , 易 出 现 梯度 弥散 的 现象 ,导致 网 络 模型 训练 不 充分 
(参数 更 新 时 效 性 和 有 效 性 差 ) 。 

众所周知 ,数据 的 差异 性 对 深度 前 馈 神 经 网 络 的 影响 是 至 关 重要 的 , 壁 如 分 类 任务 ,类 
内 的 聚集 特性 越 强 ,说 明 相 似 度 越 高 , 即 共性 特征 占 主要 ,个 性 化 特征 为 辅 ; De ar f CES 
性 越 大 ,说 明 类 与 类 之 间 的 差异 性 越 明显 , 即 个 性 化 特性 为 主 ,共性 特征 为 辅 ; 对 于 利用 深 
度 前 馈 神经 网 络 进行 特征 学 习 而 言 , 层 级 参数 的 组 合 多 样 性 、 容 许 性 强 ,使 得 权 值 参 数 带 有 
判别 特性 , 即 类 内 强调 共性 ,类 间 注 重 个 性 。 参 数组 合 下 满意 度 最 高 的 模型 状态 也 间接 说 明 
二 者 (共性 与 个 性 ) 是 矛盾 统一 的 。 本 质 上 ,深度 前 馈 神 经 网 络 将 数据 的 表示 分 级 ,高 级 的 表 
示 建 立 在 低级 的 表示 上 ,即将 一 个 复杂 的 问题 分 成 一 系列 谋 套 的 、 简 单 的 表示 学 习 问 题 ; 例 
如 第 一 个 隐 层 从 图 像 的 像素 和 邻近 像素 的 像素 值 中 识别 边缘 ; 第 二 个 隐 层 将 边缘 整合 起 来 
识别 轮廓 和 角 点 ; 第 三 个 隐 层 提取 特定 的 轮廓 和 角 点 作为 抽象 的 高 层 语 义 特 征 ; 最 后 通过 
一 个 线性 分 类 器 识别 图 像 中 的 目标 。 
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^ 从 物理 角度 ,深度 前 馈 神 经 网 络 所 有 数学 运算 (包括 线性 和 非 线性 ) 的 意义 在 于 以 下 5 

种 形式 : 升 维 或 降 维 、 放 大 或 缩小 .旋转 平移、 扭曲 或 弯曲 ( 非 线 性 操作 完成 ,不 同 的 激活 函 
数 对 输入 的 扭曲 程度 不 同 ); 即 每 层 神经 网 络 的 物理 释义 为 : 通过 现 有 的 不 同 物质 的 组 合 
形成 新 物质 ,例如 碳 氧 原子 通过 不 同 组 合 形成 若干 分 子 ,从 分 子 层面 继续 迭代 这 种 组 合 思 
想 ,可 以 形成 DNA、 细 胞 组织、 器 官 ,最 终 可 以 形成 一 个 完整 的 人 ; 同样 的 ,继续 和 迭代 还 会 
有 家 庭 、 公 司 、 国 家 等 ,这 种 现象 在 身边 随处 可 见 。 

从 实验 角度 观察 ,对 于 深度 前 馈 神经 网 络 的 模型 架构 具有 以 下 的 特点 。 

COD 线性 可 分 视角 : 深度 前 馈 神 经 网 络 的 学 习 就 是 学 习 如 何 利用 线性 变换 和 非 线性 变 
换 (激活 函数 ) ,将 输入 空间 投向 线性 可 分 / 稀 下 的 空间 去 分 类 /回归 。 

(2) 增加 节点 数 : 增加 维度 , 即 增加 线性 转换 能 力 。 

C3) 增加 层 数 : 增加 激活 函数 的 次 数 , 即 增加 非 线性 转换 次 数 。 

为 了 满足 以 上 的 特点 ,使 得 学 到 的 特征 具有 可 分 特性 , 见 图 2. 8。 








(a) (b) 
图 2.8 两 个 隐 层 前 馈 神经 网 络 的 特征 学 习 可 视 化 


其 中 的 两 个 隐 层 前 馈 神 经 网 络 模型 结构 为 : 


layer defs = []; 

layer defs.push((type: 'input', out_sx:1, out_sy:1, out_depth:2}); 
layer_defs. push({ type: 'fc', num_neurons:6, activation: | 'tanh'}); 
layer_defs. push( { type: 'fc' num_neurons:2, activation: 'tanh’}) ; 
layer_defs. push( { type: 'softmax', num_classes:2}); 


net = new convnetjs. Net() ; 
net. makeLayers(layer_defs) ; 


trainer = new convnet js. SGDTrainer(net, {learning_rate:0.01,momentum:0.1,batch_size:10,12_ 
decay:0.001}); 


& 
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激活 函数 为 tanh; 采用 随机 梯度 下 降 的 方式 求解 ,分 类 器 为 softmax; 从 图 2. 8 可 知 , 图 2. 8(a) 
为 原始 数据 所 在 空间 的 可 视 化 ; 通过 线性 和 非 线性 操作 的 两 次 变换 ,得 到 特征 空间 下 的 可 
分 性 图 2. 8(b) 。 

关于 数据 随 着 网 络 深度 的 变化 ,而 呈现 可 分 性 表达 的 能 力 , 可 参考 备注 网 站 : http:// 


cs. stanford, edu/people/karpathy/convnetjs/ / demo/classify2d. html. 
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3.1 卷 积 神经 网 络 的 生物 机 理 及 数学 刻画 


卷 积 神经 网 络 是 一 种 特殊 的 深度 前 馈 神 经 网 络 ,为 了 避免 层级 之 间 全 连接 造成 的 参 
数 宛 余 , 而 导致 网 络 模型 的 训练 依赖 相当 参数 个 数 的 数据 量 ; 它 的 设计 选择 局 部 连接 , 符 
合生 物 神 经 元 的 稀 朴 响应 特性 (层级 之 间 的 稀 下 连 接 ,例如 在 生物 视觉 神经 系统 中 ,神经 
元 的 感受 野 , 即 接受 区 域 ,具有 局 部 响应 特性 ,只 有 某 个 局 部 区 域内 的 刺激 才能 够 激活 该 
神经 元 ) ,这 样 便 可 以 大 大 降低 网 络 模 型 的 参数 规模 ,相对 而 言 ,对 训练 数据 量 的 依赖 性 
降低 。 


3.1.1 生物 机 理 


从 生物 神经 研究 的 角度 来 看 卷 积 神经 网 络 的 发 展 可 知 ,1960s 年 代 Hubel 和 Wiesel 等 
人 通过 对 猫 的 视觉 皮层 细胞 的 研究 ,提出 了 感受 野 ( 指 听觉 系统 、 视 觉 系统 和 感觉 系统 等 中 
枢 神 经 元 的 一 些 性 质 ) 这 个 概念 ; 之 后 到 了 20 世纪 80 年 代 ,Fukushima 在 感受 野 概念 的 基 
础 上 提出 了 神经 认 知 机 的 概念 ,可 以 看 作 是 卷 积 神经 网 络 的 首次 实现 ,神经 认 知 机 将 一 个 视 
觉 模 式 分 解 成 许多 子 模 式 (特征 ) ,然后 进入 分 层 递 阶 式 相连 的 特征 平面 进行 处 理 , 它 试图 将 
视觉 系统 模型 化 ,使 其 能 够 在 即使 物体 有 位 移 或 轻微 变形 的 时 候 , 也 能 完成 识别 。 

众所周知 ,视觉 皮层 ( 见 图 3. 1) 中 的 初级 视觉 皮层 ( 即 V1 区 ) 和 中 级 视觉 皮层 ( 即 V2 
区 ) 上 的 细胞 可 以 分 为 简单 细胞 和 复杂 细胞 ,其 中 简单 细胞 的 最 大 程度 响应 来 自 感受 时 范围 
内 的 边缘 刺激 模式 , 即 感受 野 较 小 , 呈 狭 长 形 , 用 小 光 点 可 以 测定 ,对 大 面积 的 弥散 光 无 反 
应 ,而 对 处 于 持 抗 区 边缘 一 定 方位 和 一 定 宽度 的 条 形 刺 激 有 强烈 的 反应 ,因此 比较 适合 于 检 
测 具 有 明暗 对 比 的 直 边 ,对 边缘 的 位 置 和 方位 有 严格 的 选择 性 ; 而 复杂 细胞 有 更 大 的 接受 
域 , 它 对 来 自 确切 位 置 的 刺激 具有 局 部 不 变性 ,同时 对 感受 野 中 的 位 置 无 严格 要 求 。( 本 段 
文献 参考 http://www. Imbe. seu. edu. cn/biology/bess/biology/chapt16/16-2-5. htm) 

不 论 是 视觉 皮层 中 的 腹 侧 视觉 通路 (回答 输入 是 什么 , 即 What 功能 ) 还 是 背 侧 视觉 通 
路 (回答 输入 在 场景 中 的 哪个 位 置 , 即 Where 功能 ) ,对 信息 的 处 理 都 经 过 初级 视觉 皮层 和 
中 级 视觉 皮层 ,其 对 应 的 生物 响应 特性 包含 : 局 部 感受 野 特 性 (空间 局 部 性 、 空 间 方 向 性 、 信 
息 选 择 性 ); 灵长目 动物 视觉 皮层 和 猫 视觉 皮层 的 电 生 理 实验 报告 和 一 些 相关 模型 的 研究 
结果 都 说 明了 视觉 皮层 复杂 刺激 的 表达 是 采用 稀 玖 编码 原则 的 ,例如 负责 视觉 感知 的 视 网 
膜 和 外 侧 膝 状 体 的 神经 细胞 只 有 100 万 个 左右 (输入 神经 元 个 数 ) ,而 初级 视觉 皮层 V1 区 
第 四 层 有 5000 万 个 (输出 神经 元 个 数 ) ,但 并 不 是 都 对 前 者 响应 ,1996 年 ,加 州 大 学 伯克利 
分 校 的 Olshausen 等 在 Nature 杂志 发 表 论文 指出 : 自然 图 像 经 过 稀 玻 编码 后 得 到 的 基 函 
数 类 似 V1 区 简单 细胞 感受 野 的 反应 特性 ; 所 以 层 与 层 之 间 权 值 的 连接 为 全 连接 并 不 总 是 
合理 的 。 
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3.1.2 卷 积 流 的 数学 刻画 


卷 积 神经 网 络 的 基础 模块 为 卷 积 流 , 包 括 卷 积 (用 于 维 数 拓 展 )` 非 线性 ( 稀 朴 性 .饱和 、 
侧 抑 制 )、 池 化 (空间 或 特征 类 型 的 聚合 ) 和 批量 归 一 化 (优化 操作 ,目的 是 为 了 加 快 训练 过 程 
中 的 收敛 速度 ,同时 避免 陷入 局 部 最 优 ) 等 四 种 操作 ,下 面 详细 讲解 这 四 种 操作 。 


1l. BR: 利用 卷 积 核对 输入 图 片 进行 处 理 , 可 学 习 到 和 鲁 棒 性 较 高 的 特征 


数学 中 , 卷 积 是 一 种 重要 的 线性 运算 ; 数字 信号 处 理 中 常用 的 卷 积 类 型 包括 三 种 , 即 
Full 卷 积 、Same 卷 积 和 Valid 卷 积 。 下 面 假设 输入 信号 为 一 维 信号 , 即 xR"; 且 滤 波 器 为 
一 维 的 , 即 we R”", 则 有 : 
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1) Full 卷 积 
y = conv(x,w, 'full') = (yA), ya), y(n + m—1)) € RT 
m (3.1) 
yD = D ruit wa) 
ica 
其 中 1=1,2,…,n 十 m 一 1。 
2) Same 卷 积 
y = conv(x,w, 'same') = center(conv(x.w. 'full'),2) € R” (3. 2) 
其 返回 的 结果 为 Full 卷 积 中 与 输入 信号 xER" 尺寸 相同 的 中 心 部 分 。 
3) Valid 卷 积 
y = conv(x,w, 'valid') = (y), sy) ,yn— m+1)) € Rr? 
m (3.3) 
xD = ax +i- Dwi 
i=l 
HPH £1.2.«7:.n—m 1. BIER nm. 
注意 : 除了 特别 声明 外 , 卷 积 流 中 常用 的 是 Valid 卷 积 。 另 外 ,容易 将 上 面 一 维 的 卷 积 
操作 扩展 至 二 维 的 操作 场景 ,不 再 赣 述 ; 为 了 更 为 直观 地 说 明 Valid 卷 积 ,给 出 如 图 3. 2 所 
示 的 图 示 。 








输出 











图 3.2 二 维 Valid 卷 积 操作 


另外 ,需要 注意 的 是 : 深度 学 习 平 台 Caffe 中 常用 的 卷 积 操作 包含 两 个 参数 即 Stride 和 
Zero Padding, 其 中 Stride 指 的 是 窗口 从 当前 位 置 到 下 一 个 位 置 , 跳 过 的 中 间 数 据 个 数 , 例 
如 图 像 从 输入 到 卷 积 层 的 情况 ,窗口 的 初始 位 置 在 第 1 个 像素 ,第 二 个 位 置 在 第 2 个 像素 ， 
那么 stride 二 2 一 1 二 1; Zero Padding 是 指 将 原始 数据 的 周边 补 上 0 值 的 圈 数 。 通 常 在 计算 
过 程 中 ,车 输入 信号 为 xER"x”, 卷 积 核 ( 即 滤波 器 ) 尺 寸 大 小 为 wER2 ,利用 Valid 卷 积 ， 
同时 结合 Stride 和 Zero Padding 得 到 的 输出 信号 的 大 小 为 : 
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y=x*we R 
[^ — s +2 * ZeroPadding | , 1 
Stride (3.4) 
m — k +2 * ZeroPadding 
L Stride ]* ! 














其 中 “| .| "操作 为 向 下 取 整 。 

卷 积 操作 的 核心 是 : 可 以 约 减 不 必要 的 权 值 连接 ,引入 稀 朴 或 局 部 连接 , 带 来 的 权 值 共 
享 策略 大 大 地 减少 参数 量 相对 地 提升 了 数据 量 , 从 而 可 以 避免 过 拟 合 现象 的 发 生 ; 另外 ,由 
于 卷 积 操作 具有 平移 不 变性 ,使 得 学 到 的 特征 具有 拓扑 对 应 性 、 鲁 棒 性 的 特性 ,如 图 3. 3 所 
示 ,我 们 分 别 给 出 全 连接 ` 局 部 连接 和 权 值 共享 时 所 对 应 的 参数 ,其 中 权 值 共享 是 指 相 邻 神 
经 元 的 活性 相似 ,从 而 共享 相同 的 权 值 参数 。 
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(a) 全 连接 (b) 局 部 连接 (c) 权 值 共享 





图 3.3 连接 类 型 


可 以 得 到 全 连接 ( 权 值 连接 ,不 含 偏 置 ) 的 参数 为 18 个 ,局 部 连接 为 7 个 , 权 值 共享 的 参 








数 为 3 个 ( 即 黄 绿 蓝 线 共 用 ) 。 
2. HHH: 降 采 样 操作 , 即 在 一 个 小 区 域内 ,采取 一 个 特定 的 值 作为 输出 值 
本 质 上 , 池 化 操作 执行 空间 或 特征 类 型 的 聚合 ,降低 空间 维度 ,其 主要 意义 是 : 减少 计 

算 量 ,刻画 平移 不 变 特性 ; 约 减 下 一 层 的 输入 维度 (核心 是 

对 应 的 下 一 层级 的 参数 有 效 地 降低 ), 有 效 控制 过 拟 合 风 

险 。 池 化 的 操作 方式 有 多 种 形式 ,例如 最 大 池 化 、 平 均 池 一 in 

化 、 范 数 池 化 和 对 数 概率 池 化 等 ,常用 的 池 化 方式 为 最 大 

池 化 (一 种 非 线 性 下 采样 的 方式 ), 见 图 3. 4. 
注意 图 3.4 中 是 无 重 倒 的 最 大 池 化 , 池 化 半径 为 2; 图 3.4 最 大 池 化 

在 深度 学 习 平台 上 ,除了 池 化 半径 以 外 ,还 有 Stride 参数 ， 

与 卷 积 阶段 的 意义 相同 。 
除了 上 面 所 举 的 池 化 方式 外 ,还 有 空域 金字 塔 池 化 方式 , 它 是 一 种 多 尺度 的 池 化 方式 ， 

可 以 获取 输入 ( 指 卷 积 后 的 特征 映射 图 ) 的 多 尺度 信息 ; 另外 ,空域 金字 塔 池 化 可 以 把 任何 

尺度 的 图 像 的 卷 积 特征 转化 成 相同 维度 ,这 不 仅 可 以 让 卷 积 神经 网 络 处 理 任意 尺度 的 图 像 ， 

还 能 避免 cropping 和 warping 操作 所 导致 的 一 些 信息 丢失 ,具有 非常 重要 的 意义 。 下 面 利 

用 图 简 述 空域 金字 塔 池 化 。 
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需要 注意 的 是 ,这 种 空域 金字 塔 池 化 方式 尽 可 能 在 最 后 的 卷 积 流 中 使 用 ,避免 之 前 的 拉 
伸 或 向 量化 所 带 来 的 信息 丢失 。 图 3. 5 中 卷 积 层 指 (可 能 经 过 若干 层 后 的 ) 已 经 得 到 的 最 后 
的 特征 映射 图 ,共计 256 个 特征 映射 图 ; 然后 以 半径 分 别 为 1.2、4 对 这 个 256 维特 征 映射 
图 进行 处 理 ,例如 半径 为 1 时 ,每 一 个 特征 映射 图 (所 有 元 素 取 最 大 ) 得 到 一 个 一 维 的 特征 ， 
共计 256 个 特征 映射 图 ,所 以 得 到 256 维特 征 ; 半径 为 2 是 指 将 每 一 特征 映射 图 分 为 四 部 
分 ,所 以 可 以 得 到 四 维特 征 , 共 计 4X256 维特 征 ; 以 此 类 推 。 








t 16x256-d $t4x256-d — $256-d 


4 / 
y' 4 256 个 特征 映射 图 


t ene 
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图 3.5 空域 金字 塔 池 化 


3. 激活 函数 : 非 线性 操作 ,通过 弯曲 或 扭曲 实现 表征 能 力 的 提升 


激活 函数 的 核心 是 : 通过 层级 (简单 ) 非 线性 映射 的 复合 使 得 整个 网 络 的 (复杂 ) 非 线性 
刻画 能 力 得 到 提升 , 若 网 络 中 没有 非 线性 操作 ,更 多 的 层级 组 合 仍 为 线性 逼近 方式 ,表征 或 
挖掘 数据 中 高 层 语义 特性 的 能 力 有 限 。 在 应 用 中 ,常用 的 激活 函数 有 : 修正 线性 单元 
ReLU( 加 速 收敛 ,内 蕴 稀 朴 性 )、 Softmax( 用 于 最 后 一 层 , 为 计算 概率 响应 ) .Softplus 函数 
(ReLU MGM IMGT) ,Sigmoid 系 ( 传 统 神经 网 络 的 核心 所 在 ,包括 Logistic-Sigmoid 函数 和 
Tanh-Sigmoid 函数 ); 下 面 我 们 通过 图 示 来 说 明 这 几 种 激活 函数 的 生物 神经 特性 。 

如 图 3.6 所 示 , 从 数学 上 来 看 , 非 线 性 的 Sigmoid 系 对 中 央 区 的 信号 增益 较 大 ,对 两 侧 
区 的 信号 增益 小 ,在 信号 的 特征 空间 映射 上 有 很 好 的 效果 。 但 从 生物 神经 科学 上 来 看 ,中 央 
区 酷似 神经 元 的 兴奋 态 ,两 侧 区 酷似 神经 元 的 抑制 态 ,因而 在 神经 网 络 学 习 方面 ,是 将 重点 
特征 推 向 中 央 区 ,将 非 重点 特征 推 向 两 侧 区 。 随 着 生物 神经 科学 的 发 展 ,2001 年 神经 科学 
家 Dayan, Abott 从 生物 学 角度 模拟 出 了 脑 神经 元 接收 信号 更 精确 的 激活 模型 ,如 图 3.7 
所 示 o 

与 Sigmoid 系 不 同 的 是 : 这 个 生物 脑 神经 元 激活 函数 的 主要 变化 有 三 点 : 一 是 单 侧 抑 
制 ; 二 是 相对 宽阔 的 兴奋 边界 ; 三 是 稀疏 激活 性 ( 即 红 框 里 前 端 状态 完全 没有 激活 )。 同 
年 ,Charles Dugas 等 人 在 做 正 数 回归 预测 论文 中 偶然 使 用 了 Softplus 函数 ,Softplus 的 导 
数 便 是 Logistic-Sigmoid, 机 器 学 习 领 域 的 Softplus 函数 和 修正 线性 单元 激活 函数 与 神经 科 
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图 3.6 Sigmoid 系 一 一 传统 神经 网 络 的 核心 


学 领域 提出 的 脑 神经 元 激活 频率 函数 有 神似 的 地 方 ( 见 图 3. 8) ,这 促成 了 新 的 激活 函数 的 
研究 。 
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输入 电流 /A x10? 3 2 A 0 1! 2 3 
图 3.7 生物 脑 神经 元 激活 模型 图 3.8 Softplus 函数 和 修正 线性 单元 


注意 : Softplus 函数 具有 生物 脑 神经 元 激活 函数 的 前 两 点 特性 ,但 是 不 具有 稀疏 激活 
特性 ,而 修正 线性 单元 作为 Softplus 函数 的 逼近 ,恰好 具有 这 三 点 特性 ,并 且 在 深度 学 习 模 
型 中 ,使 用 这 种 简单 .速度 快 的 线性 激活 函数 可 能 更 为 合适 。( 此 段 参 考 ReLU 激活 函数 . 


http://www. mamicode. com/info-detail-873243. html) 
4. 批量 归 一 化 : 优化 操作 ,减少 训练 过 程 中 的 不 稳定 性 


关于 归 一 化 操作 ,目的 是 避免 随 着 层级 的 加 深 而 导致 信息 的 传递 呈现 逐 层 衰减 的 趋势 ， 
因为 数据 范围 大 的 输入 在 模式 分 类 中 的 作用 可 能 偏 大 ,而 数据 范围 小 的 输入 作用 可 能 偏 小 ， 
总 之 数据 范围 偏 大 或 偏 小 ,可 能 导致 深度 神经 网 络 收敛 慢 、 训 练 时 间 长 。 常 用 的 归 一 化 操作 
A: L: 范 数 归 一 化 、Sigmoid 函数 归 一 化 ( 越 往 两 边 ,区 分 度 越 小 ) 等 。 需 要 注意 的 是 : 卷 积 
神经 网 络 里 面 有 时 候 会 用 到 各 种 各 样 的 归 一 化 层 , 尤 其 是 2015 年 以 前 的 研究 ,经 常 能 见 到 
它们 的 身影 ,但 是 近 些 年 来 的 研究 表明 ,这 个 层级 似乎 对 最 后 结果 的 帮助 非常 小 ,所 以 之 后 
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3.2 深度 卷 积 神经 网 络 


下 面 针 对 具体 的 深度 卷 积 神经 网 络 ,我 们 通过 模型 的 架构 .训练 技巧 和 模型 的 优势 三 个 
方面 来 解释 其 工作 原理 ,以 期 获得 更 多 关于 深度 卷 积 神经 网 络 学 习 的 经 验 与 技巧 。 


3.2.1 典型 网 络 模型 与 框架 


1. 分 类 网 络 


首先 给 出 网 络 模型 (图 3. 9) , 它 是 一 个 非常 成 功 的 深度 卷 积 神经 网 络 模型 ,主要 用 于 手 
写 体 数字 的 识别 ,应 用 在 银行 系统 中 识别 支票 上 的 数字 等 场景 。 
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图 3.9 LeNet5 网 络 的 结构 


CD 数据 : 手写 体 数 据 集 ,分 为 训练 集 (共计 10 类 ,60000 幅 ) 与 测试 集 ( 共 计 10 类 ， 
10000 幅 ) ,其 中 训练 与 测试 集 分 别 记 为 
TR } NTR 


das te ies 
(3.5) 
(xE, yE) Nre 
其 中 ,TR 表示 训练 ,TE 表示 测试 ,输入 为 x, ECR? ,输出 为 wE[0,1,2,…,9]。 
(2) 模型 : 输入 与 输出 之 间 的 关系 如 图 3. 10 所 示 ,其 中 左 侧 虚 线 框 表示 特征 学 习 , 右 侧 
虚线 框 表示 分 类 器 设计 ; 具体 的 公式 为 : 
d = g(x.W.b) 


(3.6) 
Y = softmax(X .0) 


其 中 ,X 为 输入 信号 z 的 抽象 特征 或 层次 表示 特征 ,参数 分 为 卷 积 核 和 偏 置 : 
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Q Oz 学 习 、 优 化 识别 (全 


e = [W € Rselxsxs Wr c Rieesxsxs ws: € gels] 
(3.7) 


b = [b € R',b € R*,5 € R?] 
注意 : 第 四 隐 层 与 第 五 隐 层 之 间 的 全 连接 理解 有 两 种 方式 ,一 是 利用 卷 积 的 形式 获取 
(深度 平台 Caffe 中 使 用 ) ,二 是 将 第 四 隐 层 拉 伸 或 向 量化 (Matlab 下 的 Deep Learning 
Toolbox 中 使 用 ) , 青 与 第 五 隐 层 全 连接 ; 这 里 采用 第 一 种 方式 。 另 外 , 隐 层 ( 池 化 ) 与 隐 层 
( 卷 积 ) 之 间 的 特征 映射 图 通常 需要 建立 连接 表 来 刻画 相应 的 关系 ,例如 第 二 隐 层 与 第 三 隐 
层 , 第 四 隐 层 与 第 五 隐 层 等 ,图 3. 10 给 出 第 二 隐 层 与 第 三 隐 层 之 间 特 征 映射 图 的 连接 关系 。 


第 三 个 隐 层 特征 映射 图 编号 
12 345 6 7 8 9 10 11 12 13 14 15 16 








图 3.10 第 二 隐 层 与 第 三 隐 层 之 间 的 连接 关系 


字母 表示 相连 ,未 写 出 的 表示 不 连接 ; 例如 第 三 隐 层 的 第 1 张 特征 映射 图 与 第 二 隐 

层 的 第 1,2,3 特征 映射 图 有 关系 , 即 有 : 
hi = (xo. Ora * D +a) € Rix (3.8) 

jE, 

Hp ni 为 第 三 隐 层 中 的 第 1 张 特征 映射 图 ,这 里 pg(1) 二 1,63 为 偏 置 ,Ci,; 为 连接 指示 集 , 连 
接 时 其 值 为 1 ,否则 为 0; HFA 荆 二 [1,2,3] 为 关系 指示 集 。 若 没有 连接 表 , 则 默认 为 全 连 
接 , 即 图 3. 10 PERH co wa ERS HERU w 所 对 应 第 三 隐 层 第 一 个 特征 映射 图 与 第 

二 隐 层 第 j 个 特征 映射 图 之 间 的 滤波 器 。 








对 于 分 类 器 设计 阶段 ,其 参数 为 : 
YU) = PG —&1 X400 =" € R 
Me (3.9) 


0 = [0 +01 +°** 500] 
其 中 k= 二 0,1,2,…,9; 最 后 输出 的 类 标 为 : 
y = arg max(Y GO) (3. 10) 


(3) 优化 目标 函数 : 在 训练 数据 集 上 ， 有 


min J (W,b;0) 一 一 iL» oor = k) * log(YT®(k)) 


TR n=1 k=0 
+A, R(W) +R) (3.11) 
其 中 后 两 项 为 正则 项 ,另外 具体 的 符号 表示 为 : 
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YTR (k) = softmax(X7* ,0) = softmax( g(x)" ;W.b) 0) © 


3 
= A || 2 
RW) = 之 l w Ig (3.12) 


9» 
RO = $48 I$ 
一 0 


(4) 求解 : 利用 梯度 下 降 法 来 实现 优化 目标 函数 中 参数 的 学 习 , 由 于 目标 函数 随 着 层 
级 的 加 深 ,而 导致 非 凸 优 化 问题 (在 参数 所 构成 的 超 平面 中 ,大 量 地 存在 着 鞍点 与 局 部 极 值 
点 ) ,求解 前 需 给 定 较 好 的 参数 初始 值 。 与 深度 前 馈 神 经 网 络 中 所 使 用 的 反 向 传播 算法 在 计 
算 中 有 所 不 同 的 是 : 利用 误差 反 向 传播 时 ,需要 考虑 池 化 隐 层 向 卷 积 隐 层 的 误差 传播 公式 ， 
以 及 卷 积 隐 层 向 池 化 隐 层 传播 的 误差 公式 。 首 先 更 新 参数 的 优化 公式 为 : 
Wwe = W° —a» IJ (W630) 





IW wawe-D 
a] Wb; 
il ile | (3.13) 
o pay _ , 9 (W030) 
=o E 30 mom 





式 (3.13) 中 的 参数 0 由 于 是 分 类 器 设计 阶段 ,采用 之 前 的 层级 全 连接 结构 ,所 以 与 前 馈 
神经 网 络 中 的 求 导 是 一 致 的 ,这 里 不 再 缆 述 ; 下 面 主要 关心 目标 函数 关于 隐 层 偏 导 的 求解 
(误差 传播 ) 方 式 。 

为 了 方便 说 明 ,我 们 完整 地 引入 以 下 符号 系统 : 

hi = g (WI r+) € Rr 

hj = Maxpooling(h} sr’) € R" 


k = e( xm. xh +a) € Roo 
mam s— 12,716; W) =t 
hi = Maxpooling(h} .r*) € R” 


ng = e( Xm. «ms +t) en 


sel, 


1—1,2,7,6; gi) =t 


= 1,2,+++,120; ?(1) = max(0.4) 
K = (d hd y+ shy) € REO s E 


h° = softmax (P ,0) € R'* 
目标 函数 关于 第 五 隐 层 的 误差 传播 梯度 为 : 
go — 21.30) 











oW (3.14) 
其 中 r—1.2.3.4.5; 相应 的 参数 更 新 公式 为 : 
JCYV:00) — 2h? 3J(W.b;0) ON sn 
aw: ow: Ihm ow: 1) , ' 
3.15 
9JQV.bi0) _ Ah! AT Wb) _ AN | yeo 
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中 其 中 s=1,2,3; 其 中 求解 的 核心 是 式 (3. 14) 。 
2. 目标 检测 网 络 


如 图 3. 11 所 示 给 出 网 络 模型 , 它 也 是 一 个 非常 成 功 的 深度 卷 积 神经 网 络 模型 ,主要 用 于 
目标 检测 ,通常 简 记 为 faster R-CNN; 注意 该 任务 与 以 往 的 分 类 识别 任务 不 同 的 是 : 需要 在 场 
景 中 实现 目标 定位 ( 即 回答 Where)。 首 先 ,经 典 的 基于 候选 区 域 的 卷 积 神经 网 络 (R-CNN) 是 
通过 选择 搜索 方法 实现 场景 中 目标 候选 区 域 的 选取 (目标 候选 框 选取 ,大 致 每 一 幅 场 景 中 选择 
近 两 千 个 候选 区 域 ; 再 根据 相互 交 蚕 的 面积 选择 合适 的 阔 值 对 候选 区 域 再 选择 ); 进一步 ,对 
候选 区 域 实现 卷 积 神经 网 络 的 特征 提取 与 支撑 矢量 机 实现 分 类 。 在 其 基础 上 ,提出 改进 的 模 
型 有 fast R-CNN( 候 选区 的 选择 仍 沿用 R-CNN 中 的 选择 搜索 方法 ,但 识别 阶段 利用 感 兴趣 区 
域 Rol 池 化 层 来 实现 网 络 模型 任意 的 输入 与 固定 的 输出 ,分 类 器 为 Softmax 函数 ) 和 faster 
R-CNN( 核 心理 念 是 端 到 端的 设计 模式 ,要 求 场景 中 目标 区 域 的 定位 与 识别 同时 输出 ,创新 工 
作 在 于 提出 了 区 域 生成 网 络 一 一 用 于 候选 区 的 选择 与 定位 )。 这 三 种 方法 的 对 比 见 表 3. 1。 
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图 3.11 faster R-CNN 网 络 的 结构 


表 3.1 经 典 目标 检测 算法 的 对 比 

















项 目 方法 R-CNN fast R-CNN faster R-CNN 
ETERNAN ENA | 基于 选择 搜索 方法 的 输 
候选 区 域 生成 | 入 场景 中 目标 候选 区 域 | 入 场景 中 目标 候选 区 域 | 基于 fast RONN 中 目标 
Where 识别 与 辅助 任务 的 统一 框 
da Le 架 , 引 入 “注意 "机 制 _ 
目标 识别 深度 卷 积 神经 网 络 用 于 | 利用 喝 到 端的 方式 实现 | 区 域 生成 同 第 ,使 得 对 于 
特征 提取 十 SVM 分 类 器 | 目标 识别 ,同时 实现 候选 D oe 
的 结合 区 域 位 置 精 修 ,核心 提出 | “的 网络 杠 
WOES | 候选 区 域 位 置 精 修 ROI 池 化 层 
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其 次 ,需要 注意 的 是 : faster R-CNN 引入 了 “注意 ”机 制 一 一 区 域 生 成 网 络 ( 用 于 候选 区 
域 的 生成 ) ,代替 了 fast R-CNN 中 的 选择 搜索 方法 ,所 以 faster R-CNN 可 以 简单 地 看 作 是 
区 域 生成 网 络 (Where) 与 fast R-CNN(What) 的 结合 ,输入 与 输出 之 间 的 处 理 流程 见 图 3. 12。 

备注 : 关于 目标 检测 网 络 参考 链接 http://blog. csdn. net/column/details/ ym-alanyannick. 
html. 
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图 3.12 Faster R-CNN 网 络 处 理 流程 


CD 数据 : 数据 仍 分 为 两 部 分 ,训练 数据 集 和 测试 数据 集 ,这 里 不 再 给 出 相应 的 数据 
量 , 仅 给 出 输入 与 输出 数据 的 解释 : 
{sg (3.16) 
其 中 x,E R”™" 为 输入 , 即 场景 ; w 为 期 望 输出 ,包括 两 部 分 ,一 是 场景 中 所 有 目标 的 位 置 
(利用 目标 区 域 左上 和 角 的 位 置 , 以 及 宽 与 高 来 定位 ) ,二 是 目标 区 域 所 对 应 的 物体 类 别 , 可 
写 为 : 
Ya = [PE wis € R*,Lable? sage € [1,2,**,C]] 


(3.17) 
5 一 0,1,2,…,S 


其 中 的 符号 解释 为 : 这 一 幅 场景 x, PA S 个 目标 ,其 中 每 一 个 目标 所 对 应 的 坐标 PI aree 
和 类 标 Lables”_wse ,注意 识别 场景 中 的 目标 种 类 共有 C 类 。 另 外 式 (3. 16) 中 的 输入 场景 个 
数 为 N ,需要 注意 的 是 : 每 一 幅 场 景 有 可 能 有 目标 ,也 有 可 能 没有 目标 ( 即 当 S=0 ID. 

注意 : 常用 的 数据 集 为 网 络 数 据 集 ImageNet、Pascal VOC2012、 医 学 腹部 肿瘤 数据 
sunny-brack 等 。 

(2) 模型 : 输入 与 输出 的 处 理 流程 见 图 3. 12, 该 框架 非常 清晰 地 给 出 了 实现 的 每 
一 步 : 

其 中 共享 /特有 卷 积 层 后 的 特征 图 提取 部 分 可 以 利用 各 种 经 典 的 卷 积 神经 网 络 来 实现 


Q 


© 
e 的 
e 


Q 


Q s 
中 


D 


© CD 深度 学 习 、 RUSII C 


(注意 : 将 这 些 经 典 网 络 最 后 的 分 类 部 分 去 掉 , 或 者 在 某 特征 映射 层 后 去 掉 后 面 的 部 分 ; 例 
如 VGG 网 络 、.AlexNet 网 络 .GoogleNet 网 络 .ZF 网 络 等 ) ,不 论 输入 场景 为 灰 度 图 还 是 彩 
色 图 ,处 理 流程 一 样 ,这 里 不 再 蓝 述 。 
下 面 通过 公式 来 描述 输入 与 输出 之 间 的 关系 ,分 为 如 下 的 两 个 部 分 。 
第 一 部 分 : 区 域 生成 网 络 : 
Xp = ConyNet?" (x,0,) € RX” 
(3.18 





RP, = [RP! € RES ,RP? € R'63 ] = RPNet( Xara (x) Dan) 

第 二 部 分 : 结合 区 域 生 成 网 络 的 输出 ,得 到 fast R-CNN 网 络 的 输入 与 输出 之 间 的 
关系 : 
Xrm = ConvNet ^"? (x, Or) € R” 
Xp = ConvNet P"? (Xpan + Opariz ) 
Xp = ROI"? (Xy, RP.) (3.19) 
y = [RPS ,Lablet?? ] = FCCOXp ,bp «C. Refine RP,2) 


$ = 0.1.2, $ 

进一步 具体 解释 第 一 部 分 , 即 公式 (3. 18) 描 述 如 下 : 

第 一 步 : 共享 卷 积 层 后 的 特征 图 生成 。 

Xp 一 ConyNet P (x,05,4) € Rr 

即将 输入 场景 xE€ R"”" ,通过 第 一 部 分 卷 积 神经 网 络 实现 特征 图 的 提取 ,这 一 步 输出 为 
Xora ERC MA r ARER, EARTH Xu 其 中 待 学 习 的 参数 记 为 Oan o 

第 二 步 : 利用 区 域 生 成 网 络 实现 候选 目标 区 域 的 提取 。 

关于 区 域 生成 网 络 的 训练 , 需 明 确 该 网 络 将 一 个 图 像 (任意 大 小 ) 作 为 输入 ,输出 候选 目 
标 (矩形) 区 域 的 集合 ,并 且 对 每 个 (矩形 ) 区 域 给 出 是 否 为 目标 的 得 分 , 即 如 下 公式 中 的 x 为 


输入 图 像 ,RP, 为 输出 ,其 中 S 为 候选 目标 (和 矩形 ) 区 域 的 个 数 ， 


RP, = [RP: € Rezes ,RP: € Ries ] = RPNet( Xy GO ,Op) 

RP 为 每 个 候选 区 域 判断 为 目标 .背景 区 域 的 得 分 ,对 应 着 RPZ 为 候选 目标 区 域 的 位 置 ; 待 
学 习 的 参数 为 ae; 该 网 络 的 训练 样本 集 为 : 

LEONE M LU (3. 20) 
注意 区 域 生 成 网 络 的 输入 与 fast R-CNN 的 输入 是 一 致 的 ,但 二 者 的 输出 却 不 一 样 。 这 里 
的 c, 有 两 个 部 分 ,一 是 目标 区 域 的 得 分 ( 即 判断 矩形 区 域 为 目标 或 背景 的 分 数 , 二 分 类 ) , 另 
一 个 是 目标 区 域 的 位 置 ; 由 于 是 二 分 类 问题 ,所 以 需 构 建 基于 特征 图 Xoara 的 正 负 样本 集 来 
训练 RPNet 网 络 中 的 参数 Ores 如 何 构建 基于 特征 图 Xesu 的 正 负 样 本 集 ? 对 训练 集中 的 每 
幅 输入 场景 ,依据 每 个 标定 的 真 值 目标 (矩形) 区 域 与 候选 目标 (和 矩形) 区 域 的 重 释 比例 
(IOU) 大 于 0.7, 为 正 样本 ; 其 比例 都 小 于 0. 3, 记 为 负 样 本 ; 其 余 候选 区 域 舍 弃 。 如 何 得 到 
候选 目标 (矩形) 区 域 ? 利用 输入 场景 与 特征 图 Xp 之 间 的 拓扑 结构 关系 , 即 输入 场景 的 某 
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个 矩形 区 域 与 特征 图 中 的 某 个 矩形 区 域 有 着 一 一 对 应 的 比例 关系 ,依据 特征 图 Xa € 
Re 中 Xv 平面 上 的 每 个 位 置 ,进行 滑 窗 处 理 ( 需 给 出 窗口 大 小 ,例如 3X3 等 ), 同 时 该 
位 置 的 -维特 征 来 表征 该 窗口 的 特性 ( 即 特征 向 量 ) ,为 了 使 得 特征 图 中 某 一 位 置 的 窗口 具 
有 多 样 性 ,引入 窗口 的 大 小 和 比例 这 两 个 参数 ,得 到 表征 特征 图 中 某 一 位 置 的 多 个 矩形 区 域 
(不 妨 记 为 & 个 矩形 区 域 ) ,并 将 这 些 矩 形 区 域 通过 拓扑 对 应 关系 映射 至 输入 场景 中 ,得 到 所 
谓 的 Anchor, 即 候选 目标 (和 矩形) 区 域 ( 若 将 特征 图 中 所 有 的 位 置 都 遍历 一 次 , 则 整个 候选 目 
标 (和 矩形) 区域 共计 有 wuXvXk)。 得 到 的 正 负 样 本 集 记 为 : 

(P? EP Ya à 

K (3. 21) 

Mes =« 
HP e, 为 第 n 幅 场 景 所 得 到 样本 集 的 个 数 , 总 的 ( 正 负 ) 样 本 集 个 数 为 x<。 对 比 式 (3. 200 45 
式 (3.21), 可 以 知道 : 








Ta = (pi Li? Yn (3. 22) 
第 二 部 分 , 即 式 (3. 19) 描 述 如 下 : 
第 一 步 : 共享 卷 积 层 后 的 特征 图 生成 ,这 一 步 与 第 一 部 分 区 域 生成 网 络 的 第 一 步 一 样 ， 
共享 计算 结果 ,这 里 不 再 袭 述 。 
第 二 步 : 特有 卷 积 层 后 的 特征 图 
Xp = ConvNet ""? ( Xp, + Opariz) 
这 一 步 主 要 利用 共享 卷 积 层 后 的 特征 图 Xpsm 来 得 到 Xo ,其 中 待 学 习 的 网 络 参 数 为 Oe o 
第 三 步 : 感 兴趣 区 域 (ROD 的 池 化 层 输 出 
Xp = ROI™ (Xs 4 RP.) 
这 一 步 的 输入 为 区 域 生成 网 络 得 到 的 候选 区 域 RP.( 具 有 较 高 目标 区 域 得 分 的 区 域 建议 ) 和 
第 二 步 的 输出 Xe ,由 于 候选 区 域 的 尺寸 大 小 不 一 ,为 了 避免 裁剪 或 缩放 所 带 来 的 信息 损 
失 , 引 入 单 层 空域 塔 式 池 化 (SPP) 来 实现 不 同 尺寸 的 输入 、 相 同 尺寸 的 输出 。 
第 四 步 : 全 连接 层 后 的 (预测 ) 的 输出 
y = LRP? .Lable?? ] = FC( Xp , Opars C. Refine(RP,)) 
输出 的 > 包括 两 部 分 ,一 是 目标 区 域 的 位 置 ,二 是 目标 区 域 的 类 标 , 其 中 该 层 的 输入 为 第 三 
步 的 输出 Xp 以 及 分 类 任务 中 的 类 别 个 数 C. 同 时 对 每 一 类 所 对 应 的 目标 区 域 进行 精 修 的 
参数 RefineCRP, ,c)( 即 目标 矩形 区 域 中 左上 坐标 与 长 、 宽 、 高 等 滑动 的 位 移 ), 其 中 e 1. 


2,…,C。 另 外 每 一 幅 输入 场景 ,可 能 对 应 着 目标 区 域 的 个 数 为 ;二 0,1,2,…,S 。 
G) 优化 目标 函数 : 
接 下 来 ,针对 模型 , 待 训练 的 参数 包括 : 


RPNet: (Opara + Opp ) 
(3. 23) 
fast R-CNN: (paa Oan Orana » (ü Refine RP. 2) 3) 


e 
€ 
€ 


Q 
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其 中 共享 卷 积 层 的 计算 应 包括 两 条 设计 通路 ,下 面 通 过 图 示 ( 图 3. 13) 给 出 优化 的 策略 与 待 
求解 的 目标 函数 。 
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图 3.13 Faster R-CNN 网 络 优化 路 径 


其 中 虚线 框 为 共享 计算 的 部 分 ,最 上 侧 实 线 框 为 fast R-CNN 优化 的 通路 (主要 完成 目 
标识 别 与 位 置 精 修 ) ,中 间 实 线 框 为 RPNet 优化 通路 (完成 注意” 机制, 即 候选 目标 (矩形 ) 
区 域 的 生成 )。 综 上 所 述 ,优化 目标 函数 有 两 个 。 

第 一 个 优化 目标 函数 是 RPNet 优化 通路 。 根 据 模型 中 第 一 部 分 的 描述 ,优化 目标 函 
数 为 : 

min] (Opari ,Orp ) = A Ste sees Opp) +À R Opara + ALR (Opar ) (3. 24) 
pared n=1 
式 (3.24) 由 两 个 部 分 构成 ,一 部 分 为 经 验 风 险 评估 损失 项 , 另 一 部 分 为 正则 项 ,关于 正则 项 
的 约束 ,利用 富 比 尼斯 范 数 。 接 下 来 ,每 一 幅 场景 的 损失 函数 为 : 


s 
Nas j= 





LG, +, Ope Oke) = La CI? pt) +L DS) pP La A” utm) 
1 Nu j=l 


Las (BD , pj?) —— loglp CD * p A) + A— jf? 000 — pf? aN] ER (3. 25) 
4 

LP f?) = RGP — 1) = DRG” (p) — 0” (p)) € 及 
p=1 


简单 解释 如 下 : 该 损失 函数 由 两 部 分 构成 ,一 部 分 为 区 域 得 分 损失 (分 类 器 的 设计 ), 另 一 
部 分 为 候选 区 域 的 位 置 (回归 器 的 设计 ), 二 者 之 间 相 互 影响 ,如 回归 器 中 的 权重 因子 pj? CD. 
即 为 将 第 幅 场 景 中 的 第 j 个 候选 区 域 判断 为 目标 区 域 的 概率 ,另外 式 (3. 25) 中 回归 器 的 
非 线 性 函数 为 : 


0. 52? if, | a |< 
R(x) = (3. 26) 
| z|—0.5 else 
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第 二 个 优化 目标 函数 是 fast R-CNN 优化 通路 
min] (Opera +Oparz + Oars » { Refine(RP, ,02)£4) 


N 


= xl [La Gr, o Yn 50) + Lice Cx, +¥n3Refine(RP,, »] (3.27) 


其 中 9 二 [Opwra + Oparce ,Oparsj ,注意 该 通路 的 输出 与 区 域 生成 网 络 的 输出 不 同 。 对 于 输出 的 yn 
可 以 参考 式 (3. 160 ,另外 优化 目标 函数 包括 两 部 分 ,一 部 分 是 区 域 分 类 损失 (这 里 的 分 类 指 
的 是 目标 共 分 为 C 类 ,计算 每 一 候选 区 域 分 到 c 的 概率 ,与 区 域 生成 网 络 中 的 两 分 类 (目标 
或 背景 ) 任 务 不 同 ); 另 一 部 分 是 目标 区 域 的 位 置 精 修 损失 ( 需 计算 每 一 类 下 位 置 精 修 的 便 
宜 量 ) 。 具 体 的 损失 项 展开 有 : 


TM RR ix loss Éablef? , Lable? ws) 
n (3.28) 
Lix Gr, +n s RefineC RP, )) = s ci Rae? PO ae 
3X. 28) P AY 4p 2 5 Ac PR RCT DL Se 8: hi ia Ac ole TEE . (or CR IS 0 Ac P AE R TE | COS JH 
式 (3.26) 中 的 定义 。 
OD 求解 : 
求解 优化 目标 函数 式 (3. 24) 和 式 (3. 27) ,采用 随机 梯度 下 降 的 方法 进行 端 到 端的 训练 ， 
两 个 优化 目标 函数 交替 进行 优化 ,其 中 图 3. 13 中 的 虚线 框 中 为 共享 卷 积 层 ,减少 计算 量 。 
由 于 篇 幅 所 限 ,后面 关于 目标 检测 的 应 用 会 具体 给 出 优化 与 参数 设置 以 及 实现 细节 等 ,这 里 
AGG 


3.2.2. 学 习 算 法 及 训练 策略 


接 下 来 ,我 们 给 出 深度 卷 积 神经 网 络 的 一 些 训练 技巧 ,从 数据 的 预 处 理 、 网 络 模型 的 参 
数 初始 化 、 训 练 过 程 中 的 学 习 速 率 及 激活 函数 特性 分 析 、 正 则 化 约束 等 角度 总 结 一 些 实用 的 
训练 技巧 。 


1, 数据 预 处 理 


数据 的 预 处 理 包括 输入 数据 的 预 处 理 及 隐 层 输出 的 归 一 化 处 理 , 其 中 输入 数据 的 预 处 
理 常用 的 有 : 数据 集 去 元 余 , 即 给 定 训练 数据 集 ,计算 其 均值 ,然后 数据 集中 的 每 一 个 数据 
减 去 均值 ,得 到 的 新 数据 集 作为 网 络 的 输入 ,该 处 理 对 于 输入 拓扑 结构 简单 的 数据 集 常常 有 
效 , 例 如 基于 深度 学 习 平台 Caffe 下 的 手写 体 数据 识别 任务 ,车 没有 此 操作 , 则 模型 的 训练 
性 能 和 测试 性 能 (也 称 泛 化 性 能 ) 比 较 差 。 另 外 层级 间 的 归 一 化 处 理 , 可 以 保持 层级 间 信 息 
传递 的 值 域 一 致 (而 不 是 呈现 逐 层 衰减 ) ,起 到 加 速 运算 的 作用 。 需 要 注意 的 是 ,并 不 是 所 有 
的 数据 集 在 使 用 深度 卷 积 神经 网 络 时 都 进行 数据 的 预 处 理 ( 例 如 使 用 GoogleNet 对 
ImageNet 数据 集 进行 分 类 的 时 候 , 就 没有 使 用 输入 数据 的 预 处 理 等 ) ,除了 这 里 提 到 的 数据 
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预 处 理 方法 以 外 ,图 像 的 增强 ,修复 、 降 品 等 本 质 上 可 以 提升 数据 的 “ 质 ”, 使 得 拓扑 结构 信息 
更 为 清晰 丰富。 


2. 网 络 模型 参数 初始 化 


深度 网 络 模型 参数 初始 化 的 目的 是 减弱 非 凸 优化 目标 函数 对 初 值 的 依赖 性 , 尽 可 能 避 
免 所 求 的 解 ( 即 模型 的 参数 ) 过 早 地 陷入 局 部 最 优 。 深 度 卷 积 神经 网 络 在 没有 引入 逐 层 学 习 
之 前 ,关于 模型 参数 的 初始 化 主要 有 四 种 : 零 化 (初始 参数 设置 为 零 )、 完 全 随机 (服从 于 高 
斯 分 布 ) 、 带 尺度 约束 的 随机 (尺度 因子 在 一 1 与 1 之 间 ) 和 Xaviar-glorot( 不 同 分 布下 的 半 
随机 初始 化 )。 利 用 手写 体 数 据 集 Mnist, 网 络 模型 为 VGG 网 络 , 通 过 最 后 的 损失 函数 和 准 
确 率 的 判断 , 带 有 尺度 约束 的 Xaviar-glorot 初始 化 参数 的 方式 是 最 好 的 。 除 了 以 上 四 种 常 
用 的 参数 初始 化 外 ,还 有 利用 各 种 变换 所 对 应 的 (解析 ) 函数 的 离散 化 来 构造 相应 的 滤波 器 
集合 ,从 该 集合 中 随机 选择 滤波 器 来 进行 参数 初始 化 的 选取 ,例如 Gobor 变换 所 对 应 的 
Gobor 函数 (具有 类 初级 视觉 皮层 的 特性 , 即 局 部 化 .方向 和 多 尺度 特性 等 )、 小 波 变 换 中 的 
各 种 小 波 母 函数 、 多 尺度 几何 分 析 所 对 应 的 各 种 二 代 小 波 ( 例 如 曲 波 、 冰 波 、 棉 形 波 和 轮廓 波 
等 )。 另 外 ,对 于 深度 卷 积 神经 网 络 超 参数 的 选择 也 非常 重要 ,例如 一 般 倾 向 于 使 用 小 滤波 
器 (如 3X3 的 尺寸 ) ,小 步 长 (Stride) 和 补 零 (Zero_padding) ,这样 就 不 会 减少 参数 数量 ,从 
而 提升 整个 网 络 的 准确 率 , 另 外 常用 的 池 化 尺寸 是 2X2, 可 以 在 保持 平移 不 变性 的 同时 ,有 
效 地 降低 参数 量 。 


3. 训练 阶段 学 习 速 率 及 激活 函数 特性 分 析 


学 习 速 率 的 调整 可 以 通过 验证 集 来 实现 , 若 发 现 验证 集 上 的 表现 (包括 损失 函数 和 准确 
率 ) 不 再 提升 ,将 学 习 率 除 以 batch size, 这 样 可 以 通过 增 大 batch size 而 达到 验证 集 上 的 损失 函 
数 降低 \ 准 确 率 提升 的 效果 。 常 用 的 激活 函数 有 修正 线性 单元 ReLU, 相 比 于 Sigmoid, Tanh , 
Softplus 等 激活 函数 , 它 具 有 不 饱和 、 计 算 快 稀 跑 等 特性 。 进 一 步 ,对 修正 线性 单元 的 改进 提 
出 了 Leaky ReLU (给 ReLU 的 负 半 轴 加 一 个 小 斜坡 )、Parametric ReLU, Randomized 
ReLU( 负 半 轴 上 函数 的 斜率 在 训练 时 是 随机 的 ,测试 时 固定 ) 等 非 线 性 函数 ,各 有 优势 。 


4. 正则 化 约束 


众所周知 ,深度 神经 网 络 模型 的 训练 依赖 于 数据 量 ( 自 然 获取 、 人 工 裁剪 与 旋转 、 生 成 式 
对 抗 网 络 获取 ) ,刻画 网 络 的 优 劣 则 是 泛 化 性 能 (外 插 或 预测 )。 提 升 泛 化 性 能 常 遇 到 的 问题 
便 是 过 拟 合 。 防 止 过 拟 合 有 效 的 策略 有 DropOut 正则 化 ( 它 指 随机 地 让 网 络 某 些 隐 层 节点 
暂时 不 工作 ,不 工作 的 那些 节点 可 以 暂时 认为 不 是 网 络 结构 的 一 部 分 )。 相 比较 其 他 正则 化 
策略 ,DropOut 通过 概率 来 刻画 某 一 隐 层 上 隐 单 元 的 激活 特性 ( 删 减 ), 且 不 同 Epoch 下 的 
激活 特性 不 同 (动态 变化 ) ,具有 平衡 数据 量 与 模型 参数 量 的 作用 ,与 稀 玻 性 一 样 ,合理 地 使 
用 可 以 改良 模型 的 性 能 (合理 性 : 不 是 所 有 策略 在 每 一 层 上 都 使 用 ) ,与 它 相 似 的 是 
DropConnect( 保 留 ) ,关于 Dropout ,通常 在 训练 阶段 有 Dropout. ,测试 阶段 不 进行 Dropout, 
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可 以 看 作 是 所 有 (指数 级 数目 的 ) 子 图 测试 结果 的 平均 ,类 似 组 合 方法 ,Dropout 比例 可 以 设 
置 为 0.5, 也 可 以 在 验证 集 上 验证 得 出 。 除 了 DropOut 正则 化 策略 以 外 ,还 可 以 使 用 L2/L1 
正则 化 (约束 权 值 连接 和 矩阵) 。 

更 多 关于 深度 卷 积 神经 网 络 的 训练 技巧 可 以 参考 印度 深度 学 习 专 家 Rishabh Shukla 
总 结 的 15 条 训练 建议 ,包括 训练 数据 、 选 择 合适 的 激活 函数 、 隐 层 单元 及 层 数 的 设计 、 权 值 
初始 化 学 习 率 ,格式 超 参 数 搜索 、 优 化 算法 、 逐 层 学 习 和 批量 尺寸 .DropOut 正则 化 、 迭 代 
次 数 、 自 动 微分 求 导 等 实践 的 经 验 总 结 以 及 理论 分 析 。 

备注 : 关于 学 习 算 法 及 训练 策略 的 其 他 方法 请 参考 : http://rishy. github. io/ml/ 
2017/01/05/how-to-train-your-dnn. 


3.2.3 模型 的 优 缺 点 分 析 


深度 卷 积 神经 网 络 的 核心 模块 是 卷 积 流 ( 即 卷 积 、 池 化 、 非 线性 和 批量 归 一 化 等 操作 )， 
相 比 较 于 全 连接 形式 的 深度 前 馈 神 经 网 路 ,模型 的 优势 在 于 稀 玻 (局 部 ) 连 接 . 权 值 共享 (网 
络 连接 结构 ) 和 特征 图 的 平移 不 变性 (刻画 层级 特征 的 统计 特性 ) 等 特性 ; 不 论 是 LeNet 网 
4% AlexNet 或 者 VGG 网 络 , 青 或 者 是 Maxout Wik, ZF 网 络 、Overfeat 网 络 、Network in 
Network ,还 是 GoogleNet 深度 残 差 网 络 ,深度 分 形 网 络 等 ,这 些 深度 卷 积 神经 网 络 的 模型 
都 具有 通用 的 设计 模式 或 者 特点 ,例如 结构 上 需 符合 应 用 ,多 通道 (注重 模型 架构 中 的 分 支 
数量 ,而 不 是 继续 增加 深度 ) ,简洁 性 (使 用 更 少 类 型 的 层 以 保持 网 络 尽 可 能 简单 ,如 深度 分 
形 网 络 ) , 塔 式 结构 (整体 的 平滑 的 下 采样 ) ,对称 性 ,以 及 技巧 上 的 批量 归 一 化 输入 ,过 拟 合 
(引入 正则 项 ,包括 有 噪声 数据 的 使 用 提升 网 络 的 泛 化 性 能 ) 等 。 

备注 : 支持 深度 学 习 平台 Caffe 的 模型 可 视 化 网 页 版 Netscope 链接 地 址 为 http:// 
ethereon. github. io/netscope/quickstart. html. 

该 网 页 可 以 可 视 化 上 面 所 提 到 的 各 种 网 络 及 给 出 网 络 模型 中 每 一 模块 的 参数 设置 ( 深 
灰色 框 ) ,同时 也 可 以 可 视 化 设计 的 网 络 并 检查 网 络 的 设计 和 前 向 计算 是 否 正确 。 与 Caffe 
自 带 的 draw. net. py 绘制 网 络 模 型 结构 相 比 ,Netscope 绘制 的 网 络 模型 简洁 、 直观, 图 3. 14 
中 由 于 VGG16 和 ResNet50 网 络 模型 结构 尺寸 较 大 , 仅 给 出 部 分 结构 。 

下 面 不 再 对 上 面 所 提 到 的 网 络 逐一 进行 详细 的 描述 与 分 析 , 仅 介绍 几 种 常用 且 赢 得 
ImageNet 物体 识别 挑战 的 卷 积 神经 网 络 结构 ,并 简要 地 给 出 成 功 应 用 的 领域 介绍 与 性 能 指 
标 、 网 络 模型 的 特点 o 

备注 1: ImageNet 是 一 个 拥有 超过 1500 万 张 带 标签 的 高 分 辩 率 图 像 的 数据 集 ,这 些 图 
像 分 属于 大 概 22 000 个 类 别 。 这 些 图 像 是 从 网 上 收集 ,并 使 用 Amazon Mechanical Turk 
群众 外 包工 具 来 人 工 贴标签 的 。ILSVRC 使 用 ImageNet 的 一 个 子 集 , 分 为 1000 种 类 别 ,每 
种 类 别 中 都 有 大 约 1000 张 图 像 。 总 之 ,大 约 有 120 万 张 训 练 图 像 ,50 000 张 验证 图 像 和 
150 000 张 测 试图 像 。 

备注 2: 其 中 图 3. 15 给 出 的 Top5 错误 率 是 指 对 于 ImageNet 图 像 通 常 有 1000 个 可 能 的 
类 别 , 对 每 幅 图 像 可 以 猜 5 次 结果 (预测 5 个 类 别 标签 ) , 若 其 中 有 任何 一 次 预测 对 了 ,结果 都 
算 正确 , 当 5 次 全 都 错 了 的 时 候 , 才 算 预 测 错误 .这 时 候 的 分 类 错误 率 就 叫 topo 错误 率 。 
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图 3.14 NetScope 绘制 AlexNet 网 络 `VGG16 网 络 ,深度 残 差 网 络 ResNet50 
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图 3.15 ILSVRC 历年 的 Top5 错误 率 
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1. AlexNet 网 络 


AlexNet 网 络 模型 在 ILSVRC 2012 图 像 分 类 任务 上 赢得 冠军 ,该 模型 的 优势 在 于 : 引 
入 多 种 技巧 与 策略 (如 Dropout、 数 据 扩张 .局 部 响应 归 一 化 和 重 释 池 化 、ReLU 激活 函数 ) 
解决 过 拟 合 ,并 且 可 以 利用 多 GPU 加 速 计算 。 


2. VGG.GoogleNet 网 络 


VGG 和 GoogleNet 是 ILSVRC 2014 竞赛 的 双 雄 ,这 两 类 模型 结构 有 一 个 共同 特点 : 
层级 开始 走向 “ 极 深 ”, 跟 GoogleNet 不 同 的 是 ,VGG 继承 了 LeNet 以 及 AlexNet 的 一 些 框 
架 , 尤 其 是 跟 AlexNet 框架 非常 像 。 另 外 ,注意 使 用 更 多 的 卷 积 、 更 多 的 层次 可 以 得 到 更 好 
的 结构 ,但 是 随 着 卷 积 层 的 逐渐 加 深 ,准确 率 的 提升 也 愈加 困难 。 


3. 深度 残 差 网 络 


深度 残 差 网 络 的 特点 : 一 是 网 络 层级 较 深 ,但 每 一 隐 层 较 瘦 ,可 以 控制 参数 的 数量 ; 二 
是 存在 层级 ,特征 图 个 数 逐 层 递 进 ,保证 输出 特征 表达 能 力 ; 三 是 使 用 了 较 少 的 池 化 层 , 大 
量 使 用 下 采样 ,提高 传播 效率 ; 四 是 没有 使 用 Dropout, 利 用 批量 归 一 化 和 全 局 平均 池 化 进 
行 正则 化 ,加 快 了 训练 速度 ; 五 是 层 数 较 高 时 减少 了 3X3 卷 积 个 数 ,并 用 1X1 卷 积 控制 了 
3X3 卷 积 的 输入 输出 特征 图 数量 , 称 这 种 结构 为 瓶颈”。 六 是 深度 网 络 受 梯度 弥散 问题 的 
困扰 ,批量 归 一 化 .ReLU 等 手段 对 梯度 弥散 缓解 能 力 有 限 ,而 深度 残 差 网 络 中 的 单位 映射 
的 残 差 结 构 可 以 从 本 源 上 杜绝 该 问题 。 值 得 指出 的 是 ,深度 卷 积 神经 网 络 在 深度 学 习 的 历 
史 中 发 挥 了 重要 的 作用 ,将 脑 科学 最 新 研究 获得 的 深刻 机 理 成 功用 于 模式 识别 领域 并 大 获 
成 功 , 成 为 影响 深刻 的 深度 学 习 模型 之 一 。 


3.3 深度 反 卷 积 神经 网 络 


深度 反 卷 积 神经 网 络 是 一 种 基于 卷 积 稀 琉 编码 模块 的 深度 学 习 模 型 ,众所周知 ,常见 的 
深度 网 络 模型 是 由 单 层 的 网 络 和 到 加 而 成 的 ,而 单 层 网 络 按照 编码 类 型 可 以 分 为 三 类 ,一 是 具 
有 编码 (或 分 析 ) 与 解码 (或 合成 ) 的 过 程 ,如 各 种 自 编码 网 络 、 受 限 玻 尔 兹 曼 机 等 ; 二 是 只 具 
有 合成 的 过 程 , 如 稀 琉 编码 ARR Se BUR LA RAE. 三 是 只 具有 分 析 的 过 程 ,如 普通 的 
前 馈 神经 网 络 等 ; 下 面 用 三 个 小 节 来 分 析 深 度 反 卷 积 神经 网 络 。 


3.3.1 JE BU EA 
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来 ,充分 发 挥 卷 积 操作 的 计算 优势 ,同时 从 解码 (合成 ) 的 角度 实现 隐 层 特征 的 求解 。 首 先 解 
释 反 卷 积 的 概念 , 若 已 知 x € R".hn€ R" 且 关 系 如 下 : 


e 
e 


& 


© 


DD 
© CD 深度 学 习 、 BUSI O 
中 h=w*x € R” (3.29) 


求解 wER: 的 过 程 便 为 反 卷 积 运算 ,其 中 思 一 * 十 2 一 1, 注 意 这 里 描述 的 卷 积 为 式 (3. 1) 中 的 
Full 卷 积 ,其 他 的 卷 积 操作 类 似 。 其 次 ,通过 图 3. 16 所 示 ,给 出 卷 积 稀 琉 编码 的 公式 描述 : 
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图 3.16 SARS ELS 











MB AUR x € Rn" , 超 参 数 设 定 为 : 期 望 输出 4 PRE i n? ER; 另外 4 个 
UV RR BI w ER ,其 中 这 1,2,3,4。 进 一 步 输入 与 输出 特征 图 之 间 的 关 
系 为 (注意 输入 与 输出 特征 图 之 间 为 “全 连接 ”, 即 每 一 个 隐 层 特征 图 都 与 输入 相连 ,如 前 面 
LeNet5 网 络 模型 中 的 特征 图 连接 关系 ): 


4 
x= Dw? xg? (3. 30) 
i=l 


期 望 根据 大 量 的 输入 图 像 数 据 集 «FE A AH E UE Ae Ba Ja FE PA CS Ri de rpg KSVD 
算法 一 样 ,严格 意义 上 ,此 处 合成 情形 下 的 滤波 器 应 该 为 “字典”)。 最 后 从 数据 、 模 型 ,优化 
目标 函数 和 求解 四 个 方面 陈述 卷 积 稀 琉 编码 。 


1. 数据 


(x? € R") (3. 31) 
T TAE BE ni A 13 CE TI A 2J DT 5C. Br VL FL BE AA BT 


2. 模型 
输入 与 输出 ( 即 隐 层 特征 图 ) 之 间 的 关系 为 式 (3. 30) 3X BA EGG , 
3. 优化 目标 函数 
依据 数据 和 模型 ,得 到 如 下 的 优化 目标 函数 (包括 损失 项 和 正则 项 ) : 
min J((w ,h )14) = ile - X» LUE > lwe |e (3,32) 


其 中 ni? 为 第 4 幅 输 入 x” 所 得 到 的 第 i 幅 隐 层 特征 图 ,2 为 拉 格 朗 日 因子 。 注 意 除 了 可 以 
加 入 基于 能 量 的 正则 项 避免 过 拟 合 现象 外 ,还 可 以 加 入 隐 层 特征 图 的 稀 朴 正则 约束 ,这 里 不 
BGR. 
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4. 求解 


求解 算法 根据 ADMM 或 参考 K-SVD 算法 , 即 固定 滤波 器 时 ,更 新 隐 层 特征 图 ,再 固定 
隐 层 特征 图 时 ,更 新 滤波 器 ,交替 进行 直至 收敛 。 


3.3.2 深度 反 卷 积 神经 网 络 


基于 卷 积 稀疏 编码 来 构建 深度 网 络 模型 的 层级 结构 , 称 为 深度 反 卷 积 神经 网 络 ,下 面 先 
给 出 深度 反 卷 积 神经 网 络 中 层级 结构 之 间 的 关系 结构 图 (图 3. 17) ,并 利用 公式 来 具体 描述 
这 种 关系 : 
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图 3.17 深度 反 卷 积 神经 网 络 中 的 相 邻 层 级 连接 结构 


注意 第 工 层 与 第 二 十 1 层 之 间 的 连接 仍 为 “全 连接 ”, 如 第 工 层 的 红色 特征 图 与 第 工 十 1 层 都 有 
连接 关系 ,所 以 全 连接 带 来 的 滤波 器 的 个 数 为 12 个 。 对 应 有 如 下 的 层级 (前 向 ) 传 递 关 系 : 
= ws? * hà (3. 33) 

其 中 i 二 1,2,3, 符 号 with A8 L 层 第 i 个 特征 图 与 第 工 十 1 层 第 j 个 特征 图 之 间 的 滤波 器 
(严格 意义 上 称 为 字典 ) 。 

深度 反 卷 积 神经 网 络 仍 沿用 深度 卷 积 神经 网 络 的 架构 , 即 卷 积 稀 朴 编码 (替代 卷 积 的 功 
能 ,产生 隐 层 特征 图 ) 、 池 化 、 非 线性 和 批量 归 一 化 。 学 习 隐 层 的 特征 图 可 以 通过 合成 方式 下 
的 “ 逐 层 学 习 ” 方 式 求 得 ,注意 与 自 编码 方式 下 逐 层 学 习 初 始 化 参数 (层级 连接 权 值 ) 有 所 不 
同 。 假 设 每 一 幅 输 入 图 像 xO 前 向 计算 至 第 工 层 的 特征 图 记 为 h(x”), 通 过 如 下 的 优化 
公式 可 以 求解 第 工 十 1 层 上 的 特征 图 : 

nin >) fay ce» — E a * hi G0 [ra - = Iwal? 3.30 


后 面 再 对 第 LAI 层 的 特征 图 进行 池 化 、 非 线性 (ReLU) 和 批量 归 一 化 、 全 连接 层 等 操作 ,与 
深度 卷 积 神经 网 络 一 致 ,这 里 不 再 歼 述 。 这 里 给 出 基于 CaffeNet( 与 AlexNet 结构 相同 , 需 
将 AlexNet 网 络 中 所 有 池 化 操作 与 非 线性 ReLU 操作 次 序 颠倒 便 可 以 得 到 CaffeNet 网 络 
模型 ) 的 深度 反 卷 积 神经 网 络 模型 ( 见 图 3. 18) 。 
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图 3. 18 基于 CaffeNet 的 深度 反 卷 积 神经 网 络 模型 
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备注 : 关于 深度 反 卷 积 神经 网 络 更 为 详细 的 解释 与 Caffe 代码 可 参考 网 页 https: // 


github, com/piergiaj/caffe-deconvnet. 


3.3.3 网 络 模型 的 性 能 分 析 与 应 用 举例 


深度 反 卷 积 神经 网 络 与 深度 卷 积 神经 网 络 的 应 用 场景 一 样 , 如 分 类 任务 .目标 检测 和 语 
义 分 割 等 ,当然 它 还 可 以 应 用 至 图 像 复 原 任务 ; 但 由 于 卷 积 稀疏 编码 受 限于 训练 和 测试 阶 
段 , 导 致 前 向 传播 计算 的 速度 较 慢 。 另 外 ,可 以 利用 反 卷 积 操作 ( 卷 积 稀 下 编 码 ) 可 视 化 理解 
深度 卷 积 神经 网 络 ; 本 质 上 ,由 于 卷 积 操作 仍 为 线性 操作 ,所 以 卷 积 稀 玻 编码 与 稀疏 编码 从 
形式 上 是 一 致 的 ,进而 深度 反 卷 积 神经 网 络 与 稀 朴 层次 目标 识别 网 络 SSHMAX( 第 1 章 中 
的 内 容 ) 是 一 致 的 。 


3.4 全 卷 积 神经 网 络 


全 卷 积 神经 网 络 (Fully Convolutional Networks,FCN) 对 输入 图 像 进行 像素 级 分 类 , 解 
决 了 语义 级 别 的 图 像 分 割 问题 ,与 经 典 的 卷 积 神经 网 络 在 若干 卷 积 流 后 使 用 全 连接 层 得 到 
固定 长 度 的 特征 向 量 进行 分 类 (本 质 上 ,是 一 种 图 像 级 别 的 语义 理解 ,分 类 器 设计 常用 
Softmax 函数 ) 不 同 , 全 卷 积 神经 网 络 可 以 接受 任意 尺寸 的 输入 图 像 ,引入 反 卷 积 操作 对 最 
后 一 个 卷 积 层 上 的 特征 图 进行 上 采样 ( 需 将 卷 积 神经 网 络 中 的 全 连接 层 也 改 成 卷 积 层 , 顾 名 
思 义 网 络 结构 中 没有 全 连接 层 ,都 为 卷 积 流 架 构 ) ,使 特征 图 恢复 到 与 输入 图 像 相 同 的 尺寸， 
从 而 可 以 对 每 一 个 像素 产生 一 个 预测 ,同时 保留 原始 输入 图 像 中 的 空间 信息 ,最 后 在 上 采样 
的 特征 图 上 进行 逐 像素 分 类 。 下 面 我 们 用 两 小 节 细 述 全 卷 积 神经 网 络 。 


3.4.1 网 络 模型 的 数学 刻画 


首先 通过 一 个 简单 的 例子 来 理解 全 卷 积 神经 网 络 的 概念 ,该 例子 使 用 的 网 络 结构 如 
图 3.19 所 示 。 
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图 3. 19 全 卷 积 神经 网 络 流 图 


可 以 看 出 ,从 输入 向 输出 传输 的 过 程 中 ,图 3. 19 中 没有 类 似 LeNet, AlexNet 网 络 中 的 
全 连接 层 操作 ,其 中 核心 操作 为 上 采样 , 即 如 何 依 据 C4 实现 输出 的 尺寸 与 输入 一 致 ? 最 为 


e 
e 


& 


© 


® 
og 


学 习 、 优 化 与 识别 © 


简单 的 上 采样 策略 是 双 线性 插值 ,但 有 可 能 损失 很 多 的 细节 信息 ,使 得 输出 逐 像素 刻画 输入 
的 特性 较为 粗糙 。 假 设 该 网 络 训练 好 以 后 ,所 有 层级 上 的 滤波 器 固定 ,同时 上 采样 的 参数 也 
已 固定 ,不 同 尺寸 的 输入 将 会 导致 C4 的 尺寸 不 一 ,那么 仅 靠 固定 的 上 采样 操作 是 不 可 能 完 
成 输出 与 输入 尺寸 一 致 的 要 求 , 所 以 通常 需要 在 上 采样 操作 后 加 入 裁剪 层 (Crop Layer) ,这 
样 全 卷 积 神经 网 络 便 可 以 实现 对 输入 图 像 尺寸 不 限制 的 要 求 。 

需要 注意 以 下 四 点 ,一 是 全 卷 积 神经 网 络 要 求 输入 与 输出 的 尺寸 一 致 ,但 并 没有 要 求 二 
者 的 拓扑 结构 信息 一 致 ( 即 输入 与 输出 的 内 容 尽 可 能 的 一 致 ) ,也 许 输 入 为 RGB 彩色 图 xE 
RIOD ,但 输出 却 为 yE RIF , 即 对 于 输入 中 的 每 一 个 像素 都 有 输出 与 其 对 应 


FCN:x(u,v,1,:) € R? — ylu,v,:) € R” 
(3.35) 
usu = 1,2,.…,16 


其 中 ?ER 中 的 10 可 以 理解 为 10 类 , 即 像素 级 理解 或 分 类 问题 ; 二 是 普通 卷 积 神经 
网 络 中 全 连接 层 转化 为 卷 积 层 的 过 程 ; 三 是 上 采样 层 可 量化 为 反 卷 积 的 过 程 ; 四 是 影响 输 
人 图 像 随 着 层级 的 变化 而 缩小 的 操作 包括 卷 积 中 的 步 长 设置 和 池 化 操作 中 的 半径 与 步 长 
设置 。 

通过 对 全 卷 积 神经 网 络 的 概念 性 初步 理解 , 接 下 来 根据 应 用 实例 ,通过 数学 刻画 整个 流 
程 ,核心 在 于 上 采样 操作 与 裁剪 层 的 刻画 ,该 实例 使 用 的 网 络 模型 见 图 3. 20, 
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图 3.20 基于 AlexNet 网 络 结构 (其 中 全 连接 改 为 卷 积 层 ) 的 像素 级 语义 分 割 


注意 该 网 络 结构 使 得 图 像 缩小 的 操作 主要 发 生 在 : 第 一 个 卷 积 流 后 ( 卷 积 操作 中 的 步 
长 为 4, 即 stride=4; 池 化 半径 为 2) 图 像 缩小 到 原来 的 二 第 二 个 卷 积 流 后 ( 卷 积 操作 不 改 


变 大 小 , 即 stride— 1; 池 化 半径 为 2) 再 缩小 到 原来 的 二 第 五 个 卷 积 流 后 ( 池 化 半径 为 2) 


再 缩小 到 原来 的 共计 缩小 到 原来 的 去 。 所 以 上 采样 操作 是 在 C8 的 基础 上 通过 双 线 性 


插值 运算 得 到 特征 图 的 大 小 为 192X192@21, 注 意 特征 图 的 个 数 21 是 类 别 数 , 即 输入 图 像 
中 的 每 个 像素 可 划分 为 21 类 ; 由 于 尺寸 与 输入 尺寸 不 一 致 所 以 需要 裁剪 层 将 其 进一步 扩 
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展 至 原 图 大 小 ,最 后 对 特征 图 中 每 一 个 位 置 根据 通道 实现 (共计 21 维 向 量 ) 最 大 化 , 即 最 大 
化 数值 所 对 应 的 指标 便 是 该 像素 的 类 标 。 下 面 我 们 通过 数据 模型 .优化 目标 函数 和 求解 四 
个 方面 来 刻画 基于 Alexnet 网 络 的 像素 级 语义 分 割 任务 (其 中 AlexNet 网 络 在 全 连接 层 之 
前 的 参数 可 以 参考 Caffe 平台 上 的 网 络 传输 协议 ,这 里 不 再 歼 述 ) 。 


1. 数据 


(x? € REPRIS ye E RRAN (3.36) 
其 中 输出 y” 为 输入 所 对 应 的 语义 分 割 后 的 结果 ,其 尺寸 大 小 与 输入 相同 ,但 通道 数 不 一 
样 ,例如 第 一 个 像素 属于 第 二 类 ,那么 在 这 21 个 通道 中 , 仅 有 第 2 个 为 1, 其 他 全 为 0。 


2. 模型 


X; = C G0,) € R89! 
X; = Upsampling( X; ,0,) € Rasen 
X; = Crop( X; .size(x)) € 及 227x227@21 (3. 37) 


ylusv) = arg max X; Cusv.s) 
1<s<21 


u,v = 1,2,*,227 
注意 最 后 输出 的 y(u,v) 记 录 下 了 应 该 将 该 像素 分 到 哪 一 类 ,并 根据 该 类 的 着 色 最 后 输出 分 
制图 像 , 依 据 像素 的 类 别 归属 将 其 扩展 至 227X227X21 的 矩阵 ,作为 对 输入 的 像素 级 语义 
分 割 的 预测 结果 。 


3. 优化 目标 函数 


N 
min] (0) = WL” 5) +A RO) (3. 38) 


n=1 
其 中 损失 项 中 可 以 利用 基于 能 量 的 损失 ,也 可 以 利用 负 对 数 似 然 (交叉 炉 ) 来 实现 ,参数 0 包 
括 两 部 分 ,第 一 部 分 0, 为 各 个 卷 积 流 中 和 分 类 器 Softmax 函数 中 的 参数 ; 第 二 部 分 为 上 采 
样 中 的 参数 (车 为 固定 模式 ,如 输入 在 上 采样 之 前 都 是 缩小 到 原来 的 1/32, 那 么 参数 便 可 
以 不 用 学 习 ) ,另外 R(0) 为 正则 项 ,防止 过 拟 合 现象 。 


4. 求解 


求解 算法 利用 随机 梯度 下 降 ,与 卷 积 神经 网 络 中 的 优化 求解 一 致 ,当然 模型 的 稳定 性 与 
收敛 性 取决 于 数据 量 和 好 的 初始 参数 的 选取 ,之 前 在 卷 积 神经 网 络 中 的 各 种 策略 与 方法 仍 
可 以 使 用 。 


3.4.2 网 络 模型 的 性 能 分 析 及 应 用 举例 
模型 的 优点 有 : 一 是 训练 一 个 端 到 端的 全 卷 积 神经 网 络 模型 ,利用 卷 积 神经 网 络 很 强 
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的 学 习 能 力 ,能 够 得 到 较 准 确 的 结果 ,与 以 前 的 基于 卷 积 神经 网 络 的 方法 相 比 不 用 再 对 输入 
或 者 输出 做 处 理 ; 二 是 直接 使 用 现 有 的 卷 积 神经 网 络 模型 ,如 AlexNet, VGGI6, 
GoogleNet, 只 需 将 其 中 的 全 连接 层 改 为 卷 积 层 并 采用 上 采样 和 裁剪 操作 , 即 可 实现 网 络 的 
架构 ; 三 是 不 限制 输入 图 片 的 尺寸 ,不 要 求 图 片 集 中 所 有 图 片 都 是 同样 尺寸 。 模 型 的 缺点 : 
和 期 望 输出 相 比 ,该 方法 容易 丢失 较 小 的 目标 。 对 于 模型 的 改进 便 引 入 了 多 尺度 精细 化 策 
略 , 即 不 用 一 次 性 地 将 特征 图 Cs 上 采样 至 32 倍 ,可 以 先 上 采样 2 倍 ,结合 C. 的 信息 ,再 上 
采样 16 倍 ; 实验 发 现 后 者 分 批 分 次 进行 上 采样 并 利用 之 前 特征 图 上 的 信息 ,得 到 的 结果 能 
够 保留 较 小 目标 的 细节 。 

目前 ,全 卷 积 神经 网 络 主要 应 用 的 场景 为 目标 检测 中 的 定位 ( 即 候 选 框 的 提取 ,类 似 于 
“注意 机 制 ? 下 的 显著 性 检测 任务 ) 和 语义 分 割 任务 等 。 
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深度 神经 网 络 随 着 层级 的 加 深 ,导致 优化 目标 函数 为 非 凸 优化 问题 ,依赖 于 初 值 的 选 
取 , 选 择 较 好 时 ,可 以 避免 过 早 地 陷 人 局 部 最 优 , 求 得 稳定 状态 下 的 参数 逼近 最 优 参数 ; 若 
选择 不 好 时 ,网 络 模型 易 出 现 欠 拟 合 现象 ( 即 训练 误差 下 降 慢 导致 网 络 性 能 差 ) 等 ; 如 何 能 
够 避免 (优化 目标 函数 所 对 应 的 ) 可 行 域 上 大 量 的 鞍点 与 局 部 极 值 点 ? 为 解决 这 一 问题 ， 
Hinton 等 人 提出 使 用 无 监督 预 训练 方法 优化 网 络 权 值 的 初 值 ,再 使 用 少量 有 类 标的 数据 对 
权 值 进行 微调 , 拉 开 了 深度 学 习 的 序幕 。 另 外 , 脑 科学 的 研究 发 现 ,人 脑 具 有 一 个 深度 结构 ， 
并 且 对 外 界 事物 的 认 知 过 程 是 逐 层 进行 、 逐 步 抽 象 的 。 例 如 ,人 的 视觉 系统 对 信息 的 处 理 是 
分 级 的 ,并 显示 出 一 系列 的 生物 学 功能 区 域 ,在 每 一 个 这 种 区 域 中 包含 一 个 输入 的 表示 和 从 
一 个 到 另 一 个 的 信号 流 , 根 据 信 号 流 的 方向 ,不 同 功能 区 对 应 着 的 层级 表征 不 断 被 抽象 , 同 
时 层级 之 间 的 响应 特性 不 断 被 强化 。 下 面 分 两 小 节 详 述 Hinton 等 人 的 方法 ,同时 引出 深 
度 堆栈 网 络 的 核心 自 编码 网 络 。 


4.1.1 逐 层 学 习 策 略 


逐 层 学 习 策 略 ,顾名思义 ,对 深度 神经 网 络 层 级 间 的 参数 进行 “前 分 ? 式 学 习 , 即 将 相 邻 
层级 视 为 浅 层 神经 网 络 ,可 充分 发 挥 浅 层 神经 网 络 的 学 习 优 势 ( 凸 优化 ) ,进一步 ,获取 初始 
化 参数 后 的 层级 通过 ”复合 “堆栈 ) 形 成 深度 神经 网 络 , 可 以 大 大 地 节省 计算 存储 资源 和 时 
Ta] ,提高 网 络 模型 的 泛 化 性 能 。 通 常 ,基于 逐 层 学 习 策略 的 参数 初始 化 方法 包括 以 下 三 种 形 
式 : 一 是 分 析 形 式 ( 如 独立 成 分 分 析 、 主 成 分 分 析 等 ); 二 是 合成 形式 (如 稀疏 编码 / 稀 朴 表 
示 , 卷 积 稀 玖 编码 等 ); 三 是 分 析 合成 形式 (如 基于 三 层 前 馈 神经 网 络 的 各 种 自 编码 网 络 , 受 
限 玻 尔 兹 曼 机 和 玻 尔 兹 曼 机 等 )。 值 得 指出 的 是 : 深度 神经 网 络 参 数 初始 化 的 方式 不 局 限 
于 上 面 给 出 的 ,还 有 非 学 习 方 式 下 的 选取 ,例如 基于 Gobor 变换 .小波 变换 和 多 尺度 几何 分 
析 等 构造 滤波 器 组 的 集合 ,随机 从 该 滤波 器 组 集合 中 选取 若干 滤波 器 ,赋值 给 层级 间 的 权 值 
和 矩阵; 以 及 服从 某 种 分 布下 的 参数 半 随 机 化 赋值 等 。 图 4. 1 为 基于 逐 层 学 习 策略 的 深度 神 
经 网 络 训练 模式 。 


4.1.2 自 编码 网 络 


自 编码 网 络 是 指 保持 输入 与 输出 尽 可 能 一 致 (通过 信息 损失 来 判定 ) 的 情形 下 ,实现 无 
监督 方式 下 的 隐 层 特征 提取 与 参数 学 习 ; 其 核心 在 于 训练 方式 一 一 无 监督 学 习 , 以 及 实现 
方式 一 一 浅 层 神经 网 络 ( 凸 优化 理论 ) ,以 及 刻画 方式 一 一 隐 层 特征 的 维 数 (通常 , 升 维 对 应 
FEVE , 降 维 对 应 压缩 )， 对 于 深度 神经 网 络 而 言 ,最 终 目 的 在 于 参数 学 习 。 本 小 节 将 详 述 
基于 三 层 ( 即 包括 输入 层 、 隐 层 和 输出 层 ) 前 馈 神 经 网 络 的 自 编码 实现 及 理解 : 首先 给 出 其 
网 络 结构 ( 见 图 4. 2) 。 
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图 4.1 基于 逐 层 学 习 策 略 的 深度 神经 网 络 训练 模式 
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图 4.2 基于 三 层 前 馈 神 经 网 络 的 自 编码 结构 


注意 图 4. 2 中 ,不 论 是 中 间 隐 层 的 特征 维 数 上 升 或 下 降 , 对 应 的 网 络 层级 结构 都 是 前 向 
传播 .拓扑 无 环 结构 。 


1. 数据 


(x? ERM a. D 
输入 数据 便 是 期 望 的 输出 。 


2. 模型 


X = 0, (W, ° x +b.) E€ R” 


(4.2) 
$—oQ-X-b)€R 


Jp IEEE CES BY BL S CS (V, € Rb, € R0 53 P CIS GER HE) PROB o, C O0 3X 
JE BE*a" APH analysis 的 首 字母 ; 合成 (解码 ) 阶 段 的 参数 为 (W, ER, b, € RO ,激活 
函数 为 c(。) ,同样 字母 “s” 为 合成 synthesis 的 首 字母 ; 输出 # 为 输入 x 的 预测 估计 。 注 意 ， 
这 里 隐 层 特征 的 维 数 与 输入 的 维 数 之 间 的 关系 为 ux 二 v( 升 维 ) ,wv( 降 维 ) 和 4 二 v( 同 维 )。 
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3. 优化 目标 函数 


依据 不 同 的 损失 准则 (如 能 量 、 灶 等 ) 可 以 构建 不 同 的 优化 目标 函数 ,下 面 基于 能 量 的 损 
失 构 建 的 优化 目标 函数 为 : 


min J (0) = i | 2° —x |} +a RO (4.3) 


其 中 损失 项 中 的 输出 x” 为 输入 x” 的 预测 ,其 期 望 的 输出 为 x”, 另 外 参数 与 正则 项 
X. 


0 = [Wa Jb, SW, +b, ] 
(4.4) 
RO) = Iw, lle + Iw, ls 


注意 超 参 数 中 的 激活 函数 o,(，) 和 6o,(。), 以 及 隐 层 节点 个 数 (特征 维 数 ) 事 先 已 给 定 。 
4. 求解 


通常 ,优化 目标 函数 式 (4. 3) 为 凸 优化 问题 ,可 以 利用 基于 随机 梯度 下 降 方式 的 优化 迭 
代 算 法 实现 求解 : 
COD 合成 阶段 ,目标 函数 关于 参数 的 偏 导 数 为 : 


a9J(0) 2 2 oq CE — x )T a RO 
IW, 之 (x ay IW. +2 IW, 








(4.5) 








a. 2 Xe. aU Le 
其 中 每 一 样本 的 误差 项 ( 即 预 测 输出 与 期 望 输出 的 差 ) 所 对 应 的 偏 导数 可 通过 如 下 的 公式 
求 得 : 
aCe” ru x? yt ace” )T 
aw, aw, 


a(R — y )T ace yt ; , 
G A I 601, € Ri" 


其 中 加 是 向 量 的 点 积 运算 符 , 表 示 对 应 元 素 相 乘 ; diag C e ) 是 将 向 量 扩展 为 对 角 方 阵 , 其 对 
角 上 的 元 素 为 该 向 量 的 元 素 , 非 对 角 元 素 为 0; 另外 1, 为 元 素 为 1 的 v 维 列 向 量 。o’ 为 合成 
阶段 激活 函数 的 导数 。 
(2) 分 解 阶段 ,目标 函数 关于 参数 的 偏 导数 为 : 
2 _ 2 AA = — . (go 








c, Odiag(X'") € R'* 





(4.6) 











aR) 
IW, 





xT +2 
(4.7) 





x?) 





3](0) 2 aq 一 Vt ) (2 
Jb. N% . (x 


为 了 便于 分 析 , 引 入 误差 传播 项 ( 即 每 一 po 的 导数 ) 并 记 为 : 


a(x £0 __ y(n) 
eo = (“Sx je gs (4.8) 
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进一步 ,有 根据 链 式 法 则 有 : 














IRP — yo axe H 
G a ) = aeo 。 o 8x + (o, Odiag(x"))? € R9? 
ace — yo) axo T x a 
> = dw > 有 一 xo + (0101,57 € R™ 


FLOM diag(。) 与 合成 阶段 解释 一 致 ,另外 1, 是 元 素 为 1 的 u 维 列 向 量 。c: 为 分 析 阶 段 
激活 函数 的 导数 。 
(3) 正则 项 关于 参数 的 偏 导数 易 求 , 即 


























IR) 
= 2W, 
ow, j 
IRCO) (4. 10) 
2W, = 2W。 
基于 以 上 的 分 析 , 可 得 优化 更 新 参数 的 公式 为 : 
9J(O) 
wep -—w?-—ag. 
à H IW, |w =w® 
p = Pos. us E 
Da |b =” 
ant | d (4.11) 
wey —w?—a. e 
7 x IW, |w,-wt^ 
9J(0) 
bet = p —ae 
n * 9b, Dd 





其 中 a 为 学 习 速率 。 

注意 : 自 编码 网 络 的 核心 是 基于 有 效 的 准则 建立 合理 的 损失 项 以 期 输入 与 其 编码 特征 
( 即 隐 层 输出 ) 具 有 良好 的 拓扑 结构 对 应 性 ,进一步 ,其 编码 特征 可 以 作为 新 的 输入 ,利用 同 
样 的 方式 ( 超 参数 的 设置 与 之 前 可 能 有 所 不 同 ) 得 到 对 应 的 编码 特征 ; 依次 循环 ,最 终 堆栈 
形成 深度 神经 网 络 ; 这 里 编码 特征 可 以 视 为 输入 的 一 种 合理 描述 , 随 着 层级 的 增加 ,编码 特 
征 愈 加 抽象 .具有 全 局 整体 特性 。 


4.1.3 自 编码 网 络 的 常见 范式 


根据 (好 的 ?特征 表示 衡量 标准 ,常见 的 自 编码 网 络 包括 两 种 类 型 : 一 种 是 编码 特征 可 
以 较 好 地 重 构 出 输入 (例如 稀 朴 自 编码 . 卷 积 自 编码 ); 二 是 对 输入 一 定 程度 下 的 扰动 具有 
不 变性 (例如 降 噪 自 编码 .可 收缩 性 自 编码 )。 下 面 简 述 这 几 种 常见 的 自 编码 网 络 。 


1. 稀疏 自 编码 


所 谓 稀 玻 自 编码 是 指 隐 层 特 征 具 有 稀 玻 响应 特性 (注意 不 限制 隐 层 特征 的 维 数 一 定 大 
于 输入 信号 的 维 数 , 这 一 点 可 以 参考 稀 琉 编码 与 稀 朴 表示 之 间 的 关系 ), 其 结构 如 图 4. 3 所 
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示 。 通 常 , 稀 疏 性 的 引入 带 来 的 优势 有 : 一 是 编码 方案 存储 能 力 大 ,具有 联想 记忆 能 力 , 并 
且 计 算 简 便 ;二 是 使 自然 信号 的 结构 更 加 清晰 ;三 是 编码 方案 既 符 合生 物 进化 普遍 的 能 量 最 
小 经 济 策略 ,又 满足 电 生理 实验 的 结论 。 如 何 引入 稀疏 性 ? 通常 有 两 种 方式 ,一 是 不 考虑 隐 
层 特征 的 维 数 与 输入 维 数 之 间 的 关系 ,利用 KL 距离 引入 稀 朴 性 约束 ; 二 是 要 求 隐 层 特征 
的 维 数 大 于 输入 的 维 数 ,利用 伪 范 数 L, Co € [0,1)) 或 范 数 工 ; TEMAS A ABLE 





预测 输出 

















期 望 输 出 
CETERE TAE Lelu EL ETS] 


首先 , 简 述 利用 KL 距离 引入 稀 朴 性 约束 : 对 于 数据 集 ( 沿 用 4.1. 2 节 的 符号 表示 ) 有 
隐 层 特征 的 输出 


(x? € RYN, —> (x? € RM, (4. 12) 
利用 如 下 公式 计算 隐 层 输出 每 个 节点 的 平均 值 : 
x=1 lYxe ER (4. 13) 


期 望 隐 层 每 个 节点 的 平均 输出 值 尽量 为 0, 大 部 分 的 隐 层 节点 处 于 静默 状态 ,为 了 量化 隐 层 
这 种 特性 ,通常 假设 隐 层 每 个 节点 以 一 定 的 概率 (小 概率 发 生 ) 进 行 响应 , 且 节点 之 间 相 互 独 
立 ,注意 事先 需 给 出 隐 层 每 个 节点 响应 或 发 生 的 期 望 (概率 ,如 o 一 0.05)。 进 一 步 ,利用 KL 
距离 构造 的 稀 朴 正则 项 为 : 


KL(pl XG) eleg, )- a p) + (i x65] C. 14) 


其 中 XX(j) 为 XX 的 第 j 个 元 素 , 即 隐 层 第 j 个 节点 响应 的 平均 值 ,其 中 j 二 1,…,v。 在 自 编码 
网 络 优化 目标 公式 (4. 3) 的 基础 上 ,得 到 稀 政 自 编码 网 络 的 优化 目标 函数 为 : 








miu O == L3 | £9? —2 h} +a RO) - B* PKL XG) (4, 15) 


优化 求解 与 之 前 相 比 ， 增加 逢 芍 正 则 项 (只 与 分 析 阶段 的 参数 (W。 0830. 其 次 ,考虑 利 
用 伪 范 数 L, RÖR L EWR A Ra tE, Xm 点 的 输出 构造 的 范 数 约束 项 为 : 


l i» I xe | -i»X | XG) | 


NÉ Nie 
s C4. 16) 
1 
x2 fx qu 
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这 里 给 出 了 伪 范 数 L。 和 工 ; 范 数 的 正则 项 ,同样 ,在 自 编码 网 络 优化 目标 函数 的 基础 上 ,得 
到 稀疏 自 编码 网 络 的 优化 目标 函数 为 ; 





N N 
minJ (0) == LD £9 一 xm 13+ RO) 8 LS] xe h (17) 
9 Ni Ni 


同 理 基 于 伪 范 数 L。 DIR itt FL fis A e AS C£ H bs eR Cd Te E XR fit nT VL 25 B 
表示 中 的 优化 求解 算法 。 


2. 卷 积 自 编码 


卷 积 自 编码 网 络 的 核心 是 在 层级 连接 之 间 引 入 卷 积 操作 ,改变 普通 自 编码 网 络 中 的 全 
连接 模式 , 即 对 于 式 (4.2), 有 : 


X =o,(W, *x+b,) € R” 
(4.18) 
€—oQVu**XFb)€R' 


其 中 的 “* "为 卷 积 操作 ,原来 层级 间 的 全 连接 变 为 局 部 连接 ,例如 之 前 的 权 值 矩 阵 W, € 
及 ”参数 个 数 为 w，z 个 ,但 现在 , 卷 积 操作 下 参数 的 个 数 减少 ,例如 Full 卷 积 操作 下 W, E 
RP (Su DD BRA BA v—ut 1. UR Valid 卷 积 操作 下 的 W.ER' "1 (wu 宇 v 一 1) 参 
数 个 数 为 u 一 v 十 1。 值 得 指出 的 是 : 卷 积 自 编码 网 络 的 输入 不 再 限制 为 一 维 向 量 , 对 于 二 
维 图 片 也 可 以 进行 操作 ,除了 局 部 连接 特性 以 外 ,还 可 以 引入 权 值 共享 机 制 (通过 层级 特征 
图 之 间 的 连接 表 ) ,可 以 参考 深度 卷 积 神经 网 络 中 的 相关 知识 点 。 


3. BERR AAD 


为 了 学 习 到 较为 鲁 棒 的 特征 ,可 以 对 输入 数据 (在 网 络 中 也 称 可 视 层 ) 引 入 随机 (加 性 ) 
噪声 ,此 时 对 于 自 编 码 网 络 而 言 ,输入 为 带 有 噪声 的 数据 ,期 望 输出 为 没有 噪声 的 数据 ; 需 
要 指出 的 是 : 这 里 带 噪声 的 数据 也 可 以 理解 为 对 数据 进行 某 种 已 知 的 退化 操作 所 得 到 的 。 
为 什么 会 带 来 更 为 鲁 棒 性 的 特征 学 习 ? 直观 地 解释 为 : 如 人 有 眼 在 看 物体 时 ,如 果 物 体 的 某 
一 小 部 分 被 谈 住 了 ,人 类 依然 能 够 将 其 识别 出 来 ; 又 如 多 模 态 信息 输入 大 脑 , 少 了 其 中 某 些 
模 态 的 信息 有 时 影响 也 不 太 大 。 另 外 普通 自 编码 网 络 的 缺点 是 当 训练 样本 与 测试 样本 不 符 
合同 一 分 布 时 ,刻画 的 特征 较 差 , 效 果 不 好 。 

假设 ,对 于 数据 集 引 入 随机 噪声 , 即 


QN. 


加 入 噪声 





{x (x15. 


gc 一 x pe” (4. 19) 
e" ~ EC) 
其 中 E(9) 为 噪声 的 分 布 类 型 ,2 为 已 知 的 参数 。 
相应 的 模型 为 : 
X =o, (W, +ï +b.) ER 
(4. 20) 
£ = 0,(W, + X+b,) E R" 
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中 其 中 x 二 x 十 e ,进一步 ,优化 目标 函数 为 : 





N 
min JO) = >) | £9 — iA RO (4.21) 
n=1 


TERR ff A x 为 输出 ,期望 输 出 为 没有 噪声 的 数据 x” ,求解 与 之 前 的 描述 一 样 。 迫 
使 自 编码 网 络 去 学 习 输 入 信号 的 更 加 和 鲁 棒 的 表达 ,这 也 是 它 泛 化 能 力 比 一 般 编 码 器 强 的 
原因 。 


4. 可 收缩 性 自 编 码 


可 收缩 性 自 编码 网 络 是 自 编码 网 络 的 一 个 变种 ,本 质 上 , 它 修正 了 普通 自 编码 网 络 中 的 
正则 项 ,不 直接 对 层级 之 间 的 连接 矩阵 进行 惩罚 ,而 是 利用 隐 层 的 输出 关于 输入 的 雅克 比 矩 
阵 来 进行 惩罚 。 首 先 给 出 雅克 比 矩 阵 的 公式 : 








9X(0D 9X(OD ..，9X(C1) 
9r(1 9z(2) Àr(u) 
9X(2) AX(2) .. 9X(2) 
Jx(zx) = 9r(1  Ax(2) dx(u) |E R”! (4. 22) 
9X(v) AX(v) |, 9XG) 
9r(1) 9z(2) Jr(u) 





其 中 符号 Jx(z) 为 隐 层 输出 X 关于 输入 z 的 雅克 比 矩 阵 , 它 可 以 包含 数据 在 各 个 方向 上 的 
信息 ,对 于 它 的 正则 性 约束 可 以 抑制 训练 样本 在 所 有 方向 上 的 扰动 ; 接 下 来 给 出 可 收缩 性 
自 编码 器 的 优化 目标 函数 为 : 

min J (0) = <> | £9 一 xc Eta. Jx Ie (4. 23) 


关于 求解 ,其 核心 在 于 正则 项 关于 参数 的 偏 导 。 
4.2 深度 堆栈 网 络 


深度 堆栈 网 络 是 指 基于 深度 前 馈 神 经 网 络 的 架构 ,其 中 相 邻 层 级 之 间 的 (参数 ) 学 习 策 
略 采 用 自 编 码 网 络 来 实现 ,最 后 将 自 编码 网 络 中 的 分 析 ( 编 码 ) 部 分 拿 出 以 堆栈 形式 形成 的 
网 络 ,如 图 4.4 所 示 。 

下 面 针 对 分 类 问题 ,具体 说 明 逐 层 学 习 ( 参 数 初始 化 策略 ) 和 精 调 (对 深度 前 馈 神经 网 络 
整体 做 端 到 端的 微调 ) 的 作用 。 注 意 : 通常 对 于 分 类 问题 ,网 络 的 设计 由 两 部 分 构成 ,一 部 
分 为 特征 学 习 ; 另 一 部 分 为 分 类 器 设计 。 


1. 数据 
数据 集 分 为 两 部 分 ,一 部 分 为 有 类 标的 数据 集 ( 占 整 个 数据 集 少 部 分 ) ,或 称 为 训练 集 ; 
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自 编码 网 络 逐 层 学 习 
































图 4.4 深度 堆栈 (两 个 隐 层 ) 网 络 


另 一 部 分 为 无 类 标 数 据 集 ( 占 整 个 数据 集 大 部 分 ) ,或 称 为 测试 集 , 记 为 : 
{x yw }N_, — TrianData 
x (4. 24) 
Len VL, — TestData 


整个 数据 集 的 个 数 为 N 十 T。 
2. 模型 


模型 的 目的 : 期 望 在 训练 集 上 的 性 能 指标 能 够 在 测试 集 上 有 同样 或 相当 好 的 表现 , 即 
测试 误差 尽 可 能 呈现 训练 误差 的 下 降 趋 势 ,提升 关于 测试 集 预 测 准确 率 的 置信 度 。 模 型 的 
超 参数 设置 如 下 : 在 特征 学 习 阶段 具有 工 个 隐 层 ,每 个 隐 层 上 的 节点 个 数 为 n.(1 二 1,2,…， 
LO ,每 个 隐 层 上 的 激活 函数 为 aCe); 在 分 类 器 设计 阶段 ,选择 Softmax 分 类 器 (当然 也 可 
以 选择 支撑 向 量 机 支撑 矩阵 机 等 ) 。 

1) 特征 学 习 阶 段 


X, = o (QN, * X +b) € R" 
| (4. 25) 
X =x 
其 中 /二 1,2,…,L。 每 一 层 参 数 初始 化 的 自 编码 网 络 模 型 为 : 
X, = of (Wi Xa +07) 
(4, 26) 





Xi. = of (Wi - X, - b 
其 中 参数 Wi 二 Wi «b; bi VA RT PA o=o , 角 标 “a” 表 示 分 析 阶 段 ,“s” 为 合成 阶段 。 
2) 分 类 器 设计 阶段 
假设 分 类 个 数 为 天 , 则 有 : 
joa 
E dd (4.27) 
y = [CD «CD oy K) JT 
待 学 习 的 参数 为 00 1.2. K). 
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3. 优化 目标 函数 


依据 参数 初始 化 和 精 调 两 个 阶段 来 构造 优化 目标 函数 。 
1) 参数 初始 化 化 阶段 (特征 学 习 阶 段 ) 
T 

o min o iM | X — xf + Cw e+ we Ip (4.28) 
根据 式 (4. 26) 在 无 类 标 数据 集 或 测试 集 上 得 到 该 优化 目标 函数 (参数 初始 化 的 学 习 方式 为 
无 监督 形式 )。 其 中 7! 一 1,2,…, 工 ,以 及 优化 求解 后 令 分 析 阶 段 的 参数 为 W = Ww, 
b,=b;” 。 

2) 精 调 ( 特 征 学 习 十 分 类 器 设计 ) 


N 
min J (W,b:0) = x2 loss” 07) A * R(W) +8 ° RO) (4. 29) 


FEE dit eg cT DAA H ZE SC oe P s . BI 


K 
loss($,y) 一 一 Mou) = D + log x(k) (4. 30) 


注意 对 于 样本 (x,y), 输 出 目标 y 为 K 维 的 one-hot 向 量 ,如 对 于 输入 x, 其 类 标 为 第 
X, W: 
y= 0 … 1 - 0)T E RK 


另外 8(，) 为 示 性 函数 , 即 y C = 1 成 立时 为 1, 和 否则 为 0; 另外 正则 项 约束 有 : 


wW 
RW) = M Iw, ll? 
a (4.31) 





RO = 3415 
需要 注意 的 是 精 调 在 有 类 标 数据 集 或 训练 集 上 完成 。 
4. 求解 


优化 求解 的 目标 函数 为 式 (4. 28) 和 式 (4. 290 ,其 中 前 者 使 用 浅 层 网 络 ( 通 常 ,对 应 凸 优 
化 算法 ) 易 得 到 特征 学 习 阶 段 的 初始 化 参数 , 记 为 : 
W^ = W,.W; Wi) 


bt = {bi .b:, b} 
进一步 ,初始 化 分 类 器 设计 阶段 的 参数 , 记 为 : 

go = (A 08 5 ) 
端 到 端 方式 精 调 后 的 深度 堆栈 网 络 的 参数 为 : 


若干 次 迭代 
(V7 . b? 30° ) — —— > (W’ +e,b* +630") (4. 32) 


接 下 来 提出 进一步 提升 深度 堆栈 网 络 (也 适用 于 深度 学 习 模 型 ) 性 能 的 方法 ,包括 如 下 四 个 





Sax 深度 堆 校 自 编码 网 络 站 
D 93 


方面 ,一 是 通过 数据 提升 性 能 ,通常 数据 的 规模 与 质量 决定 了 网 络 模型 的 性 能 ,如 何 获取 更 
多 的 数据 ?基于 统计 方式 的 裁剪 旋转、 伸缩 等 扩展 数据 ,或 利用 数据 生成 技术 (例如 生成 式 
对 抗 网 络 ), 另 外 比较 重要 的 是 利用 稀 玻 筛选 技术 剔除 那些 离 群 的 数据 ; 二 是 通过 算法 提升 
性 能 ,从 算法 角度 ,深度 学 习 模 型 关于 超 参 数 的 选择 、 反 向 传播 算法 的 计算 可 以 利用 经 典 的 
机 器 学 习 算 法 辅助 ,例如 利用 支撑 向 量 机 来 研究 随 着 层级 的 增加 ,相对 应 隐 层 特征 的 拓扑 结 
构 特性 的 变化 从 而 选择 合适 的 层 数 等 ; 三 是 通过 端 到 端 方 式 的 精 调 提升 性 能 ,通常 的 技巧 
包括 权 值 初始 化 、 学 习 率 、 激 活 函 数 、 网 络 拓扑 、 随 机 批量 个 数 和 和 迭代 次 数 、 正 则 化 、 早 停 等 ; 
四 是 通过 整合 不 同 功能 模块 提升 性 能 ,整合 形式 包括 模型 整合 .视角 整合 和 堆栈 整合 。 
图 4. 5 为 深度 堆栈 (两 个 隐 层 ) 网 络 的 核心 与 常用 技巧 。 





LC MM 常用 技巧 


<I IN W 1 权 值 初始 化 
WA Me\ |2 模 开 初 始 化 
AV} A | fi 
Y W WON e |3 随机 采样 


4 
*9 |4 批 量 大 小 选择 、 归 一 化 
[5 学 习 率 更 新 策略 
6 激活 函数 
7 正则 项 (Dropout) 
输入 第 一 隐 层 第 二 隐 层 第 三 隐 层 。 第 四 隐 层 su |8 早 停 








第 一 阶段 逐 层 学 习 策略 
第 二 阶段 : 精 调 


图 4.5 深度 堆栈 (两 个 隐 层 ) 网 络 的 核心 与 常用 技巧 


4.3 ”深度 置信 网络 /深度 玻 尔 兹 曼 机 网 络 


4.3.1. 玻 尔 兹 曼 机 / 受 限 玻 尔 兹 曼 机 


关于 玻 尔 兹 曼 机 与 受 限 玻 尔 兹 曼 机 在 第 1 章 中 的 神经 网 络 部 分 已 经 给 出 严格 的 数学 刻 
画 , 本 质 上 ,也 属于 自 编码 网 络 的 范畴 。 众 所 周 
知 , 玻 尔 效 曼 机 是 由 随机 神经 元 全 连接 组 成 的 反 
馈 神 经 网 络 , 且 对 称 连接 ,无 自 反 馈 , 包 含 两 层 , 一 
个 可 视 层 和 一 个 隐 层 , 层 内 连接 , 且 层 级 之 间 也 全 
连接 ; 而 受 限 玻 尔 兹 曼 机 是 层 内 无 连接 , 层 与 层 
之 间 全 连接 , 见 图 4. 6。 (a) Bi/ E 8 (b) 受 限 玻 尔 兹 曼 机 

由 于 波 尔 兹 曼 机 具有 很 强大 的 无 监督 学 习 能 yg sos S SMe 
力 , 能 够 学 习 数据 中 复杂 的 规则 ,但 代价 是 训练 的 网 络 结构 
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(学 习 ) 时 间 很 长 ,此 外 ,还 难以 准确 地 计算 玻 尔 兹 曼 机 所 表示 的 分 布 ,进一步 获取 该 分 布下 
的 随机 样本 也 很 困难 ,于 是 引入 一 种 限制 玻 尔 兹 曼 机 。 受 限 玻 尔 兹 曼 机 网 络 结构 的 特点 是 : 
在 给 定 可 视 层 单元 状态 (输入 数据 ) 时 ,各 隐 层 单元 的 激活 条 件 独立 , 反 过 来 看 ,在 给 定 隐 层 
单元 状态 时 ,可 见 层 单元 的 激活 条 件 也 是 独立 的 。 这 样 , 尽 管 受 限 玻 尔 效 曼 机 所 表示 的 分 布 
仍 无 法 有 效 计 算 , 但 可 通过 Gibbs 采样 得 到 服从 该 分 布 的 随机 样本 。 只 要 隐 层 单元 的 数目 
足够 , 受 限 玻 尔 兹 曼 机 就 能 拟 合 任 意 离散 分 布 。 为 了 有 效 地 求解 优化 目标 函数 ,Hinton 等 
人 于 2002 年 提出 了 一 个 快速 学 习 算法 , 即 对 比 散 度 算法 。 另 外 ,在 应 用 方面 ,该 模型 已 经 成 
功 被 用 来 解决 不 同 的 机 器 学 习 问题 ,比如 分 类 回归、 降 维 、 高 维 时 间 序 列 建 模 ,特征 提取 等 。 


4.3.2 深度 玻 尔 兹 曼 机 /深度 置信 和 网络 


可 以 认为 ,深度 堆栈 网 络 的 核心 是 逐 层 预 训练 与 精 调 ,也 是 目前 半 监 督学 习 的 主流 ,不 
论 是 基于 能 量 (构建 损失 函数 ) 的 自 编码 网 络 ,还 是 基于 信息 量 ( 构 建 损失 函数 ) 的 受 限 波 尔 
效 曼 机 或 波 尔 兹 曼 机 ,针对 这 一 类 网 络 模型 的 改进 与 应 用 十 分 广泛 ,下 面 主要 基于 受 限 玻 尔 
效 曼 机 来 详 述 深度 置信 网 络 的 拓扑 结构 与 训练 技巧 。 首 先 ,网 络 的 整体 结构 为 深度 前 馈 神 
经 网 络 ,参考 图 4.1, 只 是 层级 之 间 的 参数 初始 化 利用 受 限 玻 尔 兹 曼 机 的 学 习 方 式 获取 , 即 
将 受 限 玻 尔 兹 曼 机 中 的 ( 隐 层 ) 乘 性 偏 置 和 权 值 连接 矩阵 直接 赋 给 相应 层级 的 权 值 矩 阵 和 偏 
告 。 其 次 从 数据 、 模 型 ,优化 目标 函数 和 求解 四 个 方面 来 对 深度 移 信 和 网络 进行 分 析 与 理解 。 


1. 数据 


与 (基于 三 层 前 馈 神经 网 络 ) 自 编码 网 络 中 的 数据 要 求 一 致 ,数据 分 为 有 类 标 数 据 集 和 
无 类 标 数据 集 , 即 式 (4. 24)。 


2. 模型 


模型 的 网 络 结构 为 深度 前 馈 神 经 网 络 ,其 模块 设计 仍 分 为 两 个 阶段 ,一 是 特征 学 习 阶 
段 , 即 式 (4.25); 另 一 个 是 分 类 器 设计 阶段 , 即 式 (4. 27); 与 传统 自 编码 网 络 形成 的 深度 堆 
栈 网 络 的 唯一 区 别 在 于 特征 学 习 阶 段 中 ,层级 间 的 参数 初始 化 网 络 模型 , 即 


m = 1 Tk Wen) 
h PG | v.W.a.D = prs) Z e 
1 (4. 33) 
o~ = e evHo Wh) 
ô ~ PCo | h.W.a.b) P Ze 


其 中 v 为 可 视 层 , 即 输入 进行 归 一 化 后 的 数据 ; h 为 隐 层 ,W 为 (输入 ) 可 视 层 v 到 隐 层 间 的 
权 值 连接 矩阵 ,其 转 置 WT 为 隐 层 到 (输出 ) 可 视 层 3 的 权 值 连接 矩阵 ,符号 a 为 可 视 层 上 的 
乘 性 偏 置 ,符号 5 为 隐 层 上 的 乘 性 偏 置 ; 另外 天 服从 相应 的 分 布 , 通 过 吉 布 斯 采样 获取 。 但 
在 实际 应 用 中 ,具体 的 获取 方式 为 : 若 已 知 参 数 (W.a,0) ,根据 输入 wm, 隐 层 天 的 计算 公 
式 为 : 
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PG) =1 | v) = olv" -W,; +b) 
| (4. 34) 


PG) = 0 | v) =1—o(v" - W,; +b) 
FEHR AY oC + 229 Sigmoid 函数 ,其 中 A GODS Bet ae h PAS i 15 Xx 0 HH (WD BUR IE 
W 的 第 i 列 ,b; 为 隐 层 乘 性 偏 置 b 的 第 i 个 成 分 ; 同 理 根 据 隐 层 h, 对 可 视 层 进行 估计 的 公 
式 为 : 


PG) = 1| h) = oW,,, + h+a;) 
| (4. 35) 


PG) = 0 | h) = 1—oW,,, * h aj) 
其 参数 的 解释 与 上 述 一 臻 ,这 里 不 再 袭 述 。 
备注 : 本 小 节 出 现 的 公式 及 推理 ,具体 解释 可 参考 第 1 章 。 


3. 优化 目标 函数 
优化 目标 函数 分 为 两 个 阶段 ,一 是 参数 初始 化 ; 二 是 精 调 ( 与 式 (4. 29) — BO; 根据 
RA. 33) ,关于 层级 参数 初始 化 的 优化 目标 函数 为 : 
T F: 
min] (0) 一 一 MllogPCó?) =— Dlog ]P CÓ? h) (4. 36) 


m Im h 


例如 ,输入 与 第 一 隐 层 之 间 的 参数 初始 化 解释 如 下 ,其 中 将 数据 归 一 化 后 得 到 可 视 层 : 


or, B®, (uer, 


{x 
利用 式 (4. 36) 得 到 参数 为 : 
(W* .a* ,b*) 
并 将 其 赋 给 深度 前 馈 神经 网 络 中 的 第 一 层 之 间 的 权 值 矩 阵 与 (加 性 ) 偏 置 , 即 
Wi —-W* 
| (4. 37) 
b =b 


接 下 来 ,第 一 隐 层 到 第 二 隐 层 之 间 的 参数 初始 化 解释 如 下 : 先 利 用 如 下 公式 得 到 深度 前 馈 
神经 网 络 中 第 一 隐 层 的 输出 : 

Xi — a (Wi * xb) (4. 38) 
HB o C ) 为 第 一 隐 层 上 的 激活 函数 ,进而 数据 在 进行 归 一 化 后 得 : 
归 一 化 


{XP a (of? yea 


同样 ,利用 式 (4. 36) 得 到 参数 (注意 此 时 输入 发 生变 化 ,相应 参数 的 尺寸 也 随 之 变化 ) ,得 到 
的 参数 赋 给 (W b); 以 此 进行 ,可 以 将 特征 学 习 阶 段 的 每 一 层 参数 训练 完毕 , 即 完成 参数 
初始 化 的 过 程 。 


4. 求解 


关于 精 调 阶段 的 求解 ,与 传统 的 深度 前 馈 神 经 网 络 一 致 ,利用 反 向 传播 算法 进行 端 到 端 
网 络 整体 微调 。 参 数 初始 化 阶段 的 优化 目标 函数 (4. 36) 利 用 对 比 散 度 算 法 求解 (一 种 逼近 
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述 。 综 上 所 述 ,深度 置信 网 络 的 结构 图 如 图 4.7 所 示 。 
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图 4.7 深度 置信 网 络 的 结构 图 


备注 : 目前 ,深度 置信 网 络 已 经 成 功 应 用 于 模式 分 类 等 问题 中 ,但 仍 有 大 量 工 作 或 问题 
需要 解决 。 例 如 急需 解决 以 下 三 个 问题 : 一 是 理论 方面 ,其 包括 两 个 方面 ,一 个 是 数学 物理 
层面 的 , 另 一 个 是 计算 方面 的 。 众 所 周知 ,深度 模型 相 比较 于 浅 层 模型 有 更 好 的 (对 非 线 性 
函数 的 ?表征 能 力 , 但 对 于 某 些 类 函数 ,深度 网 络 仅仅 需要 非常 少 的 参数 就 可 以 表示 。 需 要 
指出 的 是 可 表示 性 不 代表 可 学 习性 ; 还 有 需要 多 少 训练 样本 才能 学 习 到 足够 好 的 深度 模 
型 。 另 一 方面 ,需要 多 少 计算 资源 才能 训练 出 更 好 的 模型 。 二 是 建 模 问题 ,自从 深度 信念 网 
络 提出 后 ,产生 了 许多 类 似 的 结构 ,如 用 自动 编码 器 替代 受 限 波 尔 效 曼 机 ,能 否 提出 新 的 分 
层 模 型 (例如 稀 朴 层次 目标 识别 , 即 Sparse-Heirarchical MAX,S-HMAX) ,使 其 不 但 有 传统 
深度 模型 所 具有 的 强大 表示 能 力 , 而 且 更 容易 做 理论 分 析 。 三 是 并 行 优化 问题 ,深度 信念 网 
络 中 的 反 向 传播 算法 ,基于 最 小 批 处 理 的 随机 梯度 优化 算法 很 难 在 多 计算 机 中 进行 并 行 训 
练 。 通 常 使 用 GPU 加 速 ,然而 单个 机 器 GPU 对 大 规模 数据 识别 或 相似 任务 数据 集 并 不 适 
用 。 未 来 , 云 计算 平台 和 基于 FPGA 的 并 行 加 速 ,是 深度 信念 网 络 在 大 规模 数据 识别 的 重 
点 研究 问题 。 
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5.1 稀疏 性 的 生物 机 理 


深度 学 习 与 稀 朴 认 知 学 习 、 计 算 与 识别 之 间 的 关系 深刻 而 且 本 质 , 从 机 器 学 习 中 的 特征 
工程 (人 工 特征 提取 与 特征 筛选 ) 到 深度 学 习 中 的 特征 学 习 ( 通 过 线性 与 非 线性 操作 的 不 断 
复合 获取 数据 的 高 层 统计 或 语义 特性 ) ,无 论 是 以 显 性 还 是 隐 性 的 嵌入 方式 , 稀 朴 性 都 在 模 
型 中 扮演 着 重要 的 角色 。 下 面 简 要 从 生物 视觉 机 理 和 数学 物理 角度 来 描述 稀 朴 性 。 

备注 : 稀 玖 认 知 学 习 、 计 算 与 识别 的 范畴 包括 表示 理论 ( 即 基于 稀 疏 表示 的 压缩 感知 和 
稀疏 编码 ) ,数学 计算 (最 优 匹配 追踪 算法 ) 和 模式 识别 (稀疏 表示 分 类 器 SRC Citt OF ZK 8 
设计 SparseMax) 等 。 


5.1.1 生物 视觉 机 理 


视觉 感知 机 理 的 研究 表明 ,视觉 系统 可 以 看 成 一 种 合理 而 且 高 效 的 图 像 处 理 系统 ,从 视 
网 膜 到 大 脑 皮层 存在 一 系列 具有 不 同 生物 学 功能 的 神经 细胞 ,例如 随 着 层级 信息 不 断 的 “加 
深 ”, 不 同 视觉 皮层 上 的 神经 细胞 对 特定 形状 的 视觉 图 案 有 最 佳 的 响应 和 偏好 的 刺激 , 简 言 
之 ,层级 越 高 感受 野 越 大 , 即 信 息 处 理 从 局 部 到 更 大 的 区 域 ,类 似 尺度 特性 。 层 级 较 低 时 , 感 
受 野 所 处 理 的 区 域 越 小 , 稀 朴 性 越 强 ( 特 指 层 级 间 的 连接 特性 ), 层 级 较 高 时 ,感受 野 所 处 理 
的 区 域 越 大 ,稀疏 性 越 弱 。 另 外 ,Barlow 推论 出 在 稀 玻 性 和 自然 环境 的 统计 特性 之 间 必 然 
存在 某 种 联系 ,随后 诸多 基于 生物 视觉 和 计算 的 模型 被 提出 来 ,都 成 功 地 例证 了 生物 视觉 针 
对 自然 环境 所 反馈 出 的 物理 统计 特性 蕴含 着 稀 玻 性 。 当 层级 较 低 时 ,其 简单 细胞 对 应 着 严 
格 的 方向 和 带 通 特性 ,而 复杂 细胞 在 保持 简单 细胞 特性 的 基础 上 进一步 具有 局 部 变换 (如 平 
移 ) 不 变性 , 简 言 之 ,简单 细胞 处 理 信 息 具 有 稀 朴 ( 即 局 部 连接 ) 特 性 ,而 复杂 细胞 具有 聚 类 
(连接 计算 共享 ) 特 性 。 神 经 科学 研究 成 果 表 明 , 稀 中 编 码 是 视觉 系统 中 图 像 表 示 的 主要 方 
式 , 初 级 视觉 皮层 (V1 区 ) 中 的 神经 元 对 视觉 信息 的 反应 具有 稀 朴 性 ,V4 区 的 神经 元 通过 
稀 玻 编码 的 方式 实现 视觉 信息 的 表示 。 从 表 5. 1 中 可 知 , 随 着 对 计算 机 视觉 研究 的 深入 ,人 
类 对 自身 视觉 感知 系统 的 理解 也 在 不 断 加 深 。 借 鉴 生物 视觉 机 理 的 研究 成 果 , 模 拟 建立 相 
应 的 视觉 计算 模型 ,将 成 为 一 个 极 具 挑战 性 和 吸引 力 的 研究 方向 。 下 面 给 出 生物 (人 类 ) 视 
觉 与 计算 机 视觉 的 对 比 表 ( 表 5. 1)。 

表 5.1 生物 (人 类 ) 视 觉 与 计算 机 视觉 对 比 


对 比 项 人 类 视觉 计算 机 视觉 
适应 性 =o em 适应 性 差 ,容易 受 复杂 背景 及 环境 变化 的 影响 
具有 高 级 智能 ,可 运用 逻辑 分 析 及 推理 | 虽然 可 利用 人 工 智 能 及 神经 网 络 技术 ,但 智能 


能 力 识别 变化 的 目标 ,并 能 总 结 规律 ”| 很 差 ,不 能 很 好 地 识别 变化 的 目标 
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续 表 
对 比 项 人 类 视觉 计算 机 视觉 
彩色 识别 能 力 对 色彩 的 分 辨 能力 强 , 但 容易 受 人 的 心 | 受 硬件 条 件 的 制约 ,目前 一 般 的 图 像 采 集 系统 
理 影响 ,不 能 量化 对 色彩 的 分 辩 能 力 较 差 ,但 具有 可 量化 的 优点 
强 ,目前 一 般 使 用 256 灰 度 级 ,采集 系统 可 具有 
灰 度 分 辩 能 力 | 差 ,一 般 只 能 分 辨 64 个 灰 度 级 1obit.12bit.16bit 等 灰 度 级 
目前 有 4KX4K 的 面 阵 摄像 机 和 8K 的 线 阵 摄 
空间 分 辩 能 力 | 分 辨 率 较 差 , 不 能 观看 微小 的 目标 像 机 ,通过 备 置 各 种 光学 镜头 ,可 以 观测 小 到 微 
米 大 到 天 体 的 目标 
"T 0. 1 秒 的 视觉 暂 留 使 人 眼 无 法 看 清 较 | 快门 时 间 可 达到 10 微 秒 左 右 ,高 速 相机 帧 率 可 
快速 运动 的 目标 达到 1000 以 上 ,处 理 器 的 速度 越 来 越 快 
从 紫外 到 红外 的 较 宽 光 谱 范围 ,另外 有 X 光 等 
感光 范围 400 一 750nm 范围 的 可 见 光 特殊 摄像 机 
对 环境 温度 ,湿度 的 适应 性 差 ,另外 有 
环境 要 求 许多 场合 对 人 有 损害 对 环境 适应 性 强 , 另 外 可 加 防护 装置 
观测 精度 精度 低 ,无 法 量化 精度 高 ,可 到 微米 级 , 易 量 化 
其 他 主观 性 , 受 心理 影响 , 易 疲 劳 客观 性 ,可 连续 工作 
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另外 ,关于 生物 视觉 与 计算 机 视觉 之 间 核 心 的 模块 对 应 关系 见 图 5. 1, 值 得 注意 的 是 : 
理解 并 分 析 大 脑 是 如 何在 算法 层面 上 工作 的 尝试 是 鲜 活 且 发 展 良好 的 ,这 项 尝试 被 称 为 * 计 
算 神经 科学 ”, 并 且 是 独立 于 深度 学 习 的 一 个 领域 。 研 究 人 员 两 个 领域 间 反 复 研 究 是 很 常见 
的 ,深度 学 习 主要 关注 如 何 构建 智能 的 计算 机 系统 ,以 用 来 解决 需要 智能 才能 解决 的 任务 ， 
而 计算 神经 科学 领域 主要 是 关注 构建 大 脑 如 何 工作 的 更 精确 的 模型 。 


生物 视觉 理论 支撑 


计算 机 视觉 应 用 











图 5.1 


生物 视觉 与 计算 机 视觉 核心 模块 对 应 
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5.1.2 Mil Eng y 55 2905799 PR S 


目前 ,构建 高 性 能 的 计算 模型 ,并 不 是 模型 越 复杂 越 好 ,特别 针对 变量 维 数 很 高 ,样本 量 
不 是 很 大 的 情形 下 ,构建 一 个 合理 的 ,相对 简单 的 稀 玻 模型 往往 具有 更 高 的 性 能 ,更 为 重要 
的 是 还 具有 生物 可 解释 性 。 从 数学 角度 来 看 ,依据 模型 的 低 复杂 性 结构 (如 向 量 的 稀 朴 性 ， 
矩阵 的 低 秩 性 等 ) ,如 何 高 效 地 从 病态 的 线性 逆 问 题 中 唯一 且 稳 健 地 恢复 出 特定 的 信息 。 值 
得 指出 的 是 : 常见 的 稀 朴 性 是 指向 量 中 绝 大 多 数 元 素 的 值 为 零 或 者 接近 于 零 ; 而 广义 的 稀 
玻 性 是 指 通过 特定 变换 后 目标 的 稀 朴 性 。 可 以 看 出 ,当前 为 了 使 得 模型 具备 学 习 能 力 、 高 容 
量 的 表达 能 力 、 快 速 推断 能 力 以 及 多 任务 信息 共享 能 力 ; 借鉴 生物 视觉 的 认 知 机 理 已 成 为 
一 种 必然 趋势 。 众 所 周知 ,1996 年 Olshausen 和 Field 在 Nature 杂志 上 发 表 的 一 篇 重要 论 
文 指出 ,自然 图 像 经 过 稀 朴 编码 后 得 到 的 基 函 数 类 似 于 初级 视觉 皮层 V1 区 上 简单 细胞 感 
受 野 的 反应 特性 ( 即 空间 域 的 局 部 性 .时 域 和 频 域 的 方向 性 和 选择 性 )。 需 要 指出 的 是 稀 玻 
编码 与 稀 玻 表示 是 不 同 的 ,例如 关于 系数 的 稀 琉 性 约束 ,前 者 采用 光滑 可 导 的 函数 ,而 后 者 
采用 伪 范 数 或 Ll 范 数 ; 另外 稀 朴 编码 不 要 求 基 原子 个 数 一 定 要 大 于 数据 的 维 数 。 本 节 更 
为 详细 的 论述 与 解释 请 参考 第 1 章 的 稀 朴 表示 ,另外 稀 朴 编码 部 分 可 参考 相关 论文 ,这 里 不 
BEBE. 


5.2 稀疏 深度 网 络 模型 及 基本 性 质 


在 深度 神经 网 络 引 入 显 式 稀 朴 性 之 前 ,关于 稀 朴 模型 的 研究 就 已 经 成 为 机 器 学 习 中 的 
热点 ,特别 是 针对 线性 稀 朴 模型 的 研究 ,如 压缩 感知 , 双 稀 朴 模 型 .结构 化 稀 玻 模型 (如 群 稀 
Hi) .S-HMAX 模型 SRC 模型 等 。 当 然 ,除了 显 式 稀疏 性 (如 稀疏 正则 化 理论 等 ) 外 ,还 有 
隐 式 稀 玖 性 的 研究 , 它 通 常 内 蕴 在 非 线 性 激活 函数 和 损失 函数 (如 交互 炉 , 非 L2 范 数 下 的 
能 量 损 失 ) 的 构建 过 程 中 。 众 所 周知 ,自从 2006 年 至 今 深 度 神经 网 络 的 一 个 重要 体现 或 要 
求 便 是 训练 数据 量 的 规模 要 大 (衡量 标准 可 利用 模型 的 参数 个 数 与 训练 数据 量 的 个 数 来 比 
较 ), 由 于 以 往 训练 数据 集 规模 很 小 ,加 上 计算 性 能 很 慢 ( 硬 件 加 速 设备 导致 ), 同 时 权 值 矩阵 
的 初始 化 方式 较为 笨拙 (容易 出 现 梯度 弥散 现象 ) ,以 及 使 用 了 某 种 错误 的 非 线性 模型 ,导致 
深度 神经 网 络 在 过 去 的 表现 并 不 好 。 经 过 十 余年 的 积累 ,目前 深度 神经 网 络 可 简略 地 认为 
是 大 规模 训练 数据 集 ,并 行 计算 和 规模 化 .灵巧 的 算法 三 者 的 结合 。 深 度 神经 网 络 中 引入 稀 
芍 正 则 或 蕴含 稀 政 性 可 以 认为 是 病态 模型 良 态 化 的 过 程 ,如 稀疏 正则 的 核心 是 解决 过 拟 合 
问题 , 稀 朴 权 值 连接 (DropOnut 策略 ) 的 本 质 是 通过 约 减 参数 量 间接 增加 训练 数据 ,以 及 非 
线性 激活 函数 中 所 隐 含 的 稀 朴 性 是 为 了 增加 “扭曲 ”程度 , 即 不 同类 别 的 (线性 不 可 分 ) 输 入 
随 着 层级 的 增加 , 隐 层 特征 所 对 应 的 线性 可 分 性 逐渐 增强 。 下 面 简要 地 分 析 深 度 神经 网 络 
在 各 阶段 所 出 现 的 稀 玻 性 及 其 优势 。 
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5.2.1 数据 的 稀 崇 性 


数据 的 稀 朴 性 包含 三 点 : 一 是 数据 中 所 包含 某 种 拓扑 特性 或 目标 相对 数据 本 身 呈 现 出 
非 零 元 素 较 少 的 情形 ; 二 是 数据 在 某 种 (线性 或 非 线性 ) 自 适应 或 非 自 适应 变换 下 对 应 的 表 
示 系 数 具 有 非 零 元 素 较 少 的 状况 ; 三 是 随 着 数据 集 规模 的 增加 ,呈现 出 某 种 统计 或 物理 特 
性 的 数据 占 整个 数据 集 的 少数 ,例如 分 辨 率 特 别 好 的 样本 或 分 辨 率 特 别 差 的 样本 在 整个 数 
据 集中 呈 较 少 的 状态 。 目 前 ,常用 的 稀 朴 性 描述 是 基于 第 二 点 假设 ,并 且 作 为 一 种 有 效 的 
( 稀 踢 性 ) 正 则 约束 ,在 优化 目标 函数 关于 解 存在 多 样 性 的 问题 中 给 出 合理 的 解释 与 逼近 。 
而 基于 第 一 点 ,通常 可 作为 一 种 有 效 的 处 理 方式 (如 二 值 化 处 理 , 或 者 零 化 无 关 区 域 ) ,例如 
输入 到 深度 神经 网 络 中 的 一 幅 图 像 , 有 效 的 目标 占 图 像 的 比例 较 少 , 便 可 以 将 图 像 中 除去 目 
标的 部 分 置 为 零 ; 值得 注意 的 是 : 利用 视觉 机 制 中 的 显著 性 检测 方法 。 另 外 针对 第 三 点 ， 
其 核心 问题 是 如 何 利用 稀 玻 编码 筛选 出 这 些 重要 样本 (或 剔除 少数 样本 )。 从 框架 (Frame 
Analysis) 分 析 角 度 , 认 为 比较 好 的 宛 余 框架 应 该 是 紧 框 架 ,进而 对 输入 描述 便 可 以 得 到 较 
好 的 紧 表示 系数 ,也 就 是 说 框架 上 界 和 框架 下 界 尽 可 能 相等 。 但 是 通常 获取 到 的 字典 ,也 就 
是 框架 ,不 是 紧 的 ,能 否 利用 大 量 无 类 标 样本 将 框架 的 上 界 与 下 界 估 计 出 来 ,然后 利用 输入 
信号 的 逼近 表示 的 二 范 数 比 上 表示 系数 的 二 范 数 ,看 这 个 比值 是 否 在 框架 上 界 与 下 界 的 中 
间 ,来 判断 该 样本 对 字典 (框架 或 系统 ) 的 表示 是 否 是 well-defined 的 ,进而 实现 对 样本 的 有 

备注 : 本 小 节 讲 的 框架 ,是 数学 分 析 中 的 一 支 理 论 , 继 傅 里 叶 分 析 、 时 频 分 析 和 小 波 分 
析 之 后 ,框架 分 析 被 提出 , 它 指 带 有 元 余 特 性 “ 基 " 的 表示 理论 。 

5.2.2 Wii ED 

众所周知 ,正则 化 的 目的 在 于 减少 学 习 算法 的 泛 化 误差 ( 亦 称 测试 误差 ) 以 期 提高 测试 
识别 率 。 目 前 ,有 许多 正则 化 策略 ,常用 的 方式 是 对 参数 进行 约束 或 限制 ,以 及 基于 某 种 特 
定 类 型 的 先 验 知 识 进 行 约 东 与 惩罚 设计 ,注意 这 些 惩罚 和 约束 通过 将 模型 求解 参数 良 态 化 
的 过 程 来 实现 泛 化 性 能 的 提升 。 基 于 如 下 的 优化 目标 函数 : 

min] (0) = desc Ly.) HA * RO) G. D 

其 中 的 RO) 为 参数 范 数 惩罚 ,例如 常用 的 有 Lo 范 数 下 的 吉 洪 诺 夫 正 则 (Tikhonov 


Regularization) ,但 它 并 没有 蕴含 稀 玻 特性 。 而 使 用 Li 范 数 则 通常 可 以 诱导 出 稀 朴 特 
性 , 即 


RO) = lwh =X Iw] (5.2) 
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注意 参数 0 包括 权 值 连接 W 与 偏 置 5 ,而 正则 约 东 往往 只 针对 权 值 连接 。 除 了 在 权 值 连 接 
上 引入 稀 蚊 正则 外 ,还 可 以 在 某 个 隐 层 输出 层 引 入 稀 玖 性 .例如 对 于 如 下 的 目标 函数 : 
min J (9) = lx—D-28l£-2a- loll, (5.3) 

注意 这 里 的 DD 为 字典 ,数学 中 称 其 为 框架 , 即 有 宛 余 的 * 基 ”; z 为 输入 ,2 为 输出 ,其 Ls 范 
数 的 定义 与 式 (5.2) 对 应 。 值 得 指出 的 是 反 卷 积 神经 网 络 中 的 卷 积 稀 朴 编码 可 以 认为 是 一 
种 带 有 共享 机 制 下 的 权 值 稀 朴 性 约束 策略 。 

备注 : 除了 上 述 具 有 稀 朴 特性 的 L. 范 数 外 ,还 可 以 引入 群 稀 朴 的 策略 ,以 及 伪 范 数 
Lv 等 ,这 里 不 再 袭 述 。 


5.2.3  MiETE 


众所周知 , 卷 积 神经 网 络 的 特性 包括 局 部 连接 , 权 值 共 享 和 变换 不 变 等 特性 且 都 蕴含 着 
稀 琉 性 ,首先 针对 局 部 连接 , 相 比 较 全 连接 策略 , 它 更 符合 外 侧 膝 状 体 到 初级 视觉 皮层 上 的 
稀 玻 响应 特性 ; 其 次 权 值 共享 ,进一步 约束 相似 隐 单 元 具有 同样 的 激活 特性 ,使 得 局 部 连接 
后 的 权 值 具有 结构 特性 ,实际 应 用 中 可 进一步 约 减 参数 个 数 ,间接 增加 数据 量 ; 最 后 ,变换 
不 变性 是 由 池 化 方式 诱导 获取 ,也 可 认为 是 一 种 有 效 的 “ 删 减 ” 参 数 的 方式 , 即 带 有 稀 玖 性 的 
零 化 操作 。 下 面 介绍 一 种 经 典 的 自 适 应 权 值 删 减 技巧 DropOut, 即 指 在 模型 训练 时 随机 让 
网 络 某 些 隐 含 层 节 点 的 权重 不 工作 ,不 工作 的 那些 节点 可 以 暂时 认为 不 是 网 络 结构 的 一 部 
分 ,但 是 它 的 权重 需 保留 下 来 (注意 只 是 暂时 不 更 新 ) ,因为 下 次 样本 输入 时 它 可 能 又 得 工作 
了 , 见 图 5.2。 














图 5.2 DropOut 网 络 连接 


在 图 5. 2 的 基础 上 ,对 第 / 层 到 第 :十 1 层 上 的 第 i 个 隐 单 元 ,在 训练 阶段 ,DropOut AL 
体 的 工作 原理 如 图 5.3 所 示 。 

其 中 图 5. 3 中 左边 的 网 络 结构 为 正常 的 连接 ,右边 的 为 带 有 DropOut 策略 的 连接 ,其 
数学 物理 解释 如 下 。 


ç sex BRE e C 




















图 5.3 DropOut 的 工作 原理 


1. 正常 的 连接 
ztD — pry Q O0 4 pu 一 Swi e yO 4 pom 
zi 1 y” tbi bo xj tbi 
je (5.4) 
yf a a(x) ) 


E H PEE BRE WET? € R Ah oj" € RUE oC * OD CIR PRB 
2. #4 DropOut 策略 的 连接 


rj? — Bernoulli(p) 
y? —r?0y? € RF 
gf = weep .e y? Tor» = Swe B yf? Toro 
j=l 
yf? = o(zf*?) 
其 中 符号 名 为 对 应 元 素 相 乘 . 另 外 , 伯 努 利 (Bernoulli) 分 布 是 一 种 离散 分 布 ,有 两 种 可 能 的 
结果 ,其 中 1 表示 成 功 ,0 表示 失败 ,注意 符号 p 表示 概率 值 , 即 rf? (G= 1.2.3) DEE p 
成 功 响应 的 。 对 比 式 (5.5) 和 式 (5. 4) 可 知 ,从 输入 y? ly 0 ,导致 第 ! 层 上 部 分 节点 不 响 
应 ,注意 由 于 每 个 节点 是 独立 同 分 布下 的 响应 或 不 响应 ,所 以 处 理 完 后 响应 节点 的 个 数 为 : 
npn*p (5. 6) 

其 中 zp 为 相应 概率 , 即 DropOut 率 ; nn 为 隐 层 节点 的 个 数 ,7 为 随机 概率 处 理 完 后 的 第 1 层 
上 的 响应 节点 的 个 数 。 应 用 中 ,经 过 交叉 验证 , 隐 含 节点 Dropout 率 等 于 0.5 的 时 候 效 果 最 
好 ,主要 原因 是 此 时 Dropout 随机 生成 的 网 络 结构 最 多 。 

另 一 种 稀 朴 连接 可 以 通过 约 减 参数 的 方式 来 实现 ,通常 有 两 个 思路 : 一 是 直接 将 较 小 
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的 权 值 连接 置 为 零 (但 有 风险 ,因为 随 着 层级 的 上 升 , 较 小 的 权 值 将 会 使 得 输入 累积 较为 大 
的 输出 ); 二 是 通过 和 矩阵 分 解 来 实现 。 下 面 简要 介绍 基于 矩阵 分 解 的 参数 约 减 ,假设 输入 x 
ER" 与 输出 yE R" 之 间 的 关系 为 : 


y —^cQW * x+b) 
| (5.7) 
we R™ 
其 中 W 为 权 值 连接 ,ER 为 偏 置 。 进 一 步 , 对 于 权 值 连接 Wa T EE FB: 
W-—U-Z-VvV? (5.8) 
这 里 假设 rank W) =r, WA U€ R"".Z € RC" Rl VER”; 通过 组 合 策略 得 到 权 值 连接 的 
表示 为 : 
—W.Wa 
E ER (5. 9) 
W, cR" 


注意 当 W =U + Sit WW. =V; WERK W, =U wS Vs 模型 相对 应 的 式 (5.7) 则 


z=Wiex 
| (5. 10) 


y = a(W, ez +b) 
需要 注意 的 是 : 网 络 模型 相对 应 式 (5.7) 中 的 权 值 连接 W 和 式 (5. 10) 中 的 权 值 连接 (W'， ， 
W) ,其 参数 量 由 nm 变 为 -， Cam) 。 注 意 该 规则 有 效 的 前 提 是 权 值 连接 W 是 低 秩 矩 
阵 , 即 rank(W)<min(n.m) 。 
备注 : 由 于 在 实际 大 多 数 情 形 下 , 权 值 矩阵 W 是 满 秩 的 ,因此 通常 取 马 的 较 大 的 & 个 奇 
异 值 并 将 其 他 奇异 值 置 零 , 来 实现 对 W 的 逼近 。 


5.2.4 稀 崇 分 类 器 设计 


常见 的 稀 朴 分 类 器 设计 是 基于 表示 学 习 的 ,如 稀疏 表示 分 类 器 ,其 核心 步骤 包括 : 首 
先 ,字典 构造 : 
D = ([D,.D2 ++ Dx J (5.11) 
Hop K 为 类 别 个 数 ,D,(k 二 1,2,…,K) 为 第 k 类 样本 或 数据 集 构造 (直接 将 样本 堆 释 形成 ) 
或 学 习 ( 通 过 K-SVD 算法 ) 的 字典 ; 其 次 ,对 于 样本 x 进行 如 下 的 表示 学 习 : 


mint. lx —D-al£ca- lali 


i 
2 








K 
x— 3D, ^ a] a lel, (5.12) 
k=1 


注意 这 里 的 表示 系数 : 
Q& 一 [aas，…akr] (5.13) 


其 中 基于 假设 ,车 样本 x 属于 第 & 类 , 则 表示 系数 主要 集中 在 a ,而 其 他 表示 系数 mw GAR) 
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望 为 零 ,需要 注意 的 是 ,这 里 的 wm 是 向 量 ,而 不 是 标量 。 最 后 类 标的 判定 通过 如 下 的 公式 

label(x) = arg min ( lI x— D; + æ l$) (5.14) 

Fi — Bb Ai hid 26 BE I ETT WU I SE F Bi IET] Softmax 分 类 器 来 实现 的 ,其 动机 是 改进 

Softmax 输出 处 处 不 为 零 以 期 获得 输出 大 多 数 为 零 ,并 记 此 为 Sparsemax 分 类 器 ,具体 的 数 
学 物理 描述 如 下 。 


1. Softmax 分 类 器 


= Softmax(x,0) = [y1 ,ys °°, yr] 


1 (5.18) 
», = Pabel) = k | 0) = 7 * ent? 
其 中 为 类 别 个 数 ,参数 0— [0 0; 0] Z 为 归 一 化 因子 , 即 
K 
Z= e? (5. 16) 
j=l 
待 优化 的 参数 为 0。 
2. Sparsemax 分 类 器 
y = Sparsemax(x.2) = arg min, l p—(W+x+b) lė 
rt (5.17) 
9 = (W.b) 
FER RF“ A ROE BI AL + 
K 
art = [pe n Dip = Lp So} (5.18) 
i=l 


如 何 优化 求解 p? 对 于 Softmax 分 类 器 而 言 ,已 知 参数 9 和 输入 x, 则 可 以 通过 式 (5. 15) 求 
出 输出 y。 而 对 于 Sparsemax 分 类 器 ,车 知 参数 9 和 输入 x ,如何 对 式 (5. 17) 进 行 优化 呢 ? 
先 简 记 符号 : 


z=W-x+b (5. 19) 
则 优化 目标 变 为 : 
arg min l p—zl* (5. 20) 
PEA 
给 定 z, 关 于 p€A Ain EXE. 
pr = Da — c0]. (5.21) 


这 里 的 p, 为 将 输入 x 分 到 第 & BEE R= 1.2. K Ma] =max(0.0). 
另外 r:Rx 一 及 满足 以 下 式 子 ， 
Mle 一 r(z)] 1 (5. 22) 
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z >z ZU (5. 23) 
并 定义 : 
kO = max{k € 12, KJ ++ Xs] (5. 24) 
jek 
WW cC + DOT PA BERI F EZR: 
(Za) 
r(z) == ey (5. 25) 


5.2.5. ”深度 学 习 中 关于 稀 琉 的 技巧 与 策略 


众所周知 ,深度 学 习 是 一 类 借鉴 生物 的 多 层 神 经 网 络 处 理 模式 所 发 展 起 来 的 智能 处 理 
技术 , 稀 朴 性 可 以 大 幅度 削减 深度 神经 网 络 中 权 值 连接 数量 ,因此 被 广泛 采用 。 目 前 ,对 于 
深度 卷 积 神经 网 络 , 便 可 以 认为 是 深度 前 馈 ( 全 连接 ) 神 经 网 络 的 稀 朴 化 ; 另外 , 稀 朴 深度 网 
络 模型 的 设计 包括 以 下 三 条 准则 。 

(1) 第 一 条 准则 ,层级 间 模 块 化 , 逐 层 堆栈 。 

依据 自 编码 网 络 进行 逐 层 初始 化 ,例如 常用 的 有 稀疏 自 编码 器 ,其 中 关于 隐 结 点 输出 的 
稀疏 正则 性 约束 包括 KL 散 度 和 LI 范 数 或 伪 范 数 ,对 应 着 的 稀 朴 深度 网 络 模型 称 为 ( 稀 朴 ) 
深度 堆栈 网 络 ; 另外 还 有 稀 玻 受 限 玻 尔 效 曼 机 所 对 应 的 稀 朴 深度 置信 网 络 和 卷 积 稀 琉 编码 
所 对 应 的 ( 稀 朴 ) 反 卷 积 神经 网 络 等 。 

(2) 第 二 条 准则 , 逐 阶 段 模块 化 。 

与 层级 间 模 块 化 不 同 , 针 对 特定 的 任务 ,例如 分 类 ,利用 生成 式 对 抗 网 络 ( 包 括 两 
个 子 网 络 , 即 生成 模型 和 判别 模型 ) 在 无 监督 学 习 方式 下 获取 非 合 作 状 态 下 的 零 和 博 
弈 解 ,提取 其 判别 网 络 中 的 特征 学 习 部 分 (去 掉 后 面 的 真 伪 二 值 分 类 器 设计 ) ,结合 
类 器 设计 (如 Softmax 分 类 器 ) ,再 利用 监督 学 习 的 方式 进行 整个 网 络 (由 提取 的 特征 学 
习 部 分 和 分 类 器 设计 部 分 组 合 而 成 ) 的 精 调 。 其 中 稀疏 化 可 以 内 蕴 在 特征 学 习 部 分 和 
分 类 器 中 。 

(3) 第 三 条 准则 ,多 通路 网 络 设计 。 

多 分 辨 特性 可 以 认为 是 输入 在 不 同 尺度 或 不 同 频带 上 的 响应 , 相 比 较 单 尺度 上 对 输入 
的 (稠密 性 ) 表 征 ,多 分 辩 特 性 通过 多 通路 或 多 通道 来 散 化 对 输入 的 表征 ,使 其 在 每 一 个 尺度 
或 频带 上 呈现 稀 朴 性 。 另 外 ,根据 深度 神经 网 络 的 设计 准则 , 塔 式 , 对 称 和 多 通路 可 以 削弱 
“深度 ?对 输入 与 输出 之 间 的 非 线 性 刻画 , 即 极 深 神经 网 络 ( 例 如 深度 残 差 网 络 .深度 分 形 网 
络 等 ) 可 由 多 通路 、. 带 有 融合 特性 的 深度 神经 网 络 来 逼近 。 

在 以 上 三 条 准则 的 基础 上 , 常 使 用 的 稀 蚊 性 策略 包括 Dropout( 目 的 是 通过 随机 化 权 值 
连接 实现 参数 的 有 效 约 减 .间接 提升 训练 数据 量 , 以 实现 网 络 泛 化 性 能 的 提升 ,有 助 于 防止 
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过 拟 合 现象 ) ,DropConnect,DropNeuron 等 ; 另外 ,网 络 中 激活 函数 的 有 效 选 择 将 有 助 于 通 
过 内 蕴 稀 朴 性 来 提升 网 络 的 泛 化 性 能 和 计算 开销 ,以 及 缓解 反 向 传播 时 所 带 来 的 “梯度 弥 


散 ” 的 现象 ,常用 的 激活 函数 见 图 5. 4。 

目前 ,深度 网 络 设 计 中 最 为 常用 的 激活 
函数 是 修正 线性 单元 ReLU 及 其 改进 版 
RePLU,Maxout( 本 质 上 ReLU 是 Maxout 的 
一 种 特例 ,操作 见 图 5. 5) 等 。 值 得 注意 的 是 : 
深度 学 习 的 基础 是 数据 ,由 于 数据 本 身 存在 
着 差异 性 ,对 深度 网 络 模 型 的 影响 也 不 一 样 ; 
能 否 通 过 对 数据 的 “分 级 处 理 ”, 如 常见 的 基 
于 无 监督 方式 的 数据 聚 类 ,通过 划 定 与 聚 类 
中 心 的 亲 牙 来 实现 样本 的 分 级 处 理 , 如 ”优良 
中 差 " 子 数据 集 ; 进一步 ,对 每 级 样本 分 别 来 
学 习 深度 神经 网 络 , 以 期 探索 数据 的 差异 性 
对 深度 卷 积 神经 网 络 的 影响 。 换 言 之 ,数据 
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图 5.4 常用 的 激活 函数 


的 分 级 处 理 体 现 着 输入 与 输出 之 间 映 射 的 差异 性 ,犹如 大 脑 的 多 分 辩 特 性 ,对 信息 结构 完整 
或 分 辩 率 高 的 输入 识别 精度 高 ,相反 ,对 结构 缺失 或 分 辩 率 较 低 的 输入 识别 精度 低 ; 若 将 这 
种 多 分 辩 特 性 与 深度 卷 积 神经 网 络 相 结合 ,形成 多 分 辨 深度 卷 积 神经 网 络 ,实现 对 样本 的 得 
选 并 改善 基于 差异 性 数据 集 学 习 到 的 深度 卷 积 神经 网 络 的 性 能 。 





激活 函数 为 Maxout 


输入 














图 5.5 激活 函数 使 用 Maxout 


备注 : 关于 激活 函数 ReLU rp Zi a A h B Hi TEE S HE HE http://www. cnblogs. 


com/yymn/p/5616709, html. 


注意 : Maxout 与 ReLU 的 唯一 区 别 是 ,前 者 是 对 若干 个 “隐隐 层 ” 单 元 的 值 执行 最 大 化 
操作 ,而 后 者 是 对 隐 层 上 每 一 个 单元 执行 与 0 相 比较 的 最 大 化 操作 。 
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m 5.3 网 络 模型 的 性 能 分 析 


5.3.1 稀 芷 性 对 深度 学 习 的 影响 


通常 ,原始 数据 中 缠绕 着 高 度 密集 的 特征 ,稠密 分 布 内 蕴 稀 朴 表 达 往 往 比 局 部 少数 点 携 
载 的 特征 成 倍 地 有 效 , 当 然 ,在 网 络 的 设计 过 程 中 ,过 分 地 强调 稀 朴 性 处 理 , 会 减少 模型 的 有 
效 容 量 , 即 特征 屏蔽 太 多 ,导致 模型 无 法 学 到 有 效 的 特征 ; 研究 发 现 ,理想 的 稀 琉 性 比率 保 
持 在 70%% 一 85%%( 量 化 的 指标 说 明 请 参考 备注 中 的 参考 文献 ) ,超过 85% 的 深度 网 络 模型 的 
网 络 容量 就 成 了 问题 ,导致 泛 化 性 能 锐 减 错误 率 极 高 。 总 之 ,模型 稀 朴 化 有 诸多 优点 ,但 是 
过 度 的 ( 显 式 ) 稀 朴 性 通常 也 会 导致 模型 的 稳定 性 变 差 , 从 而 泛 化 性 能 降低 。 


5.3.2. 对 比试 验 及 结果 分 析 


本 节 简 要 地 给 出 稀 朴 深度 堆栈 网 络 的 几 组 实验 说 明 及 结果 分 析 。 首 先 , 网 络 的 结构 见 
图 5.6, 网 络 优化 分 为 预 训练 和 精 调 两 个 阶段 , 超 参 数 中 关于 激活 函数 和 特征 学 习 后 分 类 器 
的 设计 作为 对 比 点 。 

















图 5.6 稀 朴 深度 堆栈 网 络 


1. 激活 函数 所 蕴含 着 的 稀疏 性 (分 类 器 固定 为 Softmax)( 表 5. 2) 


表 5.2 不 同 激活 函数 下 稀疏 深度 堆栈 网 络 的 测试 误差 
































激活 函数 Mnist Cifar10 Mstar ImageNet 
Sigmoid 3.28% 48.12% 12.18% 58.65% 
Tanh 3.16% 51.04% 11.97% 56.92% 
Softplus 2.75% 43.76% 10. 34% 54.21% 
ReLU 2.93% 46. 23% 10. 93% 55.63% 
Maxout 2.64% 44.74% 9.73% 52.17% 
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注意 网 络 的 隐 层 个 数 设计 为 3 层 , 预 训练 阶段 , 权 值 初始 化 的 方式 采用 稀 琉 编码 策略 ， 


即将 学 到 的 字典 进行 转 置 得 到 相应 的 滤波 器 ,通过 最 大 池 化 的 方式 进行 维 数 约 减 。 
2. MRD BBL VS 分 类 器 设计 (激活 函数 使 用 ReLU)( 表 5.3) 


表 5.3 不 同 分 类 器 下 稀疏 深度 堆栈 网 络 的 测试 误差 





























分 类 器 Mnist Cifarl0 Mstar ImageNet 
SVM 2.6896 43.47% 9.10% 54.96% 
SMM 2.5794 42. 7196 8.92% 54. 05% 
Softmax 2.93% 46. 23% 10.93% 55.63% 
Sparsemax 2.52% 44. 3896 7.5296 55.15% 


注意 这 里 的 SMM 为 支撑 矩阵 机 ,详尽 参考 第 1 章 机 器 学 习 小 结 中 支撑 向 量 机 第 二 种 


改进 的 方案 。 


结果 分 析 , 从 实验 中 可 以 看 出 ReLU itis e A Bek o E GE" dE URL FE SESS 而 (最 


大 ) 池 化 操作 隐 含 对 特征 “* 强 稀 玻 性 ”( 特 征 选择 ) 的 要 求 ; 以 及 参数 层 偏 置 隐 含 对 特征 “ 稀 琉 
度 " 的 调节 。 另 外 ,深度 神经 网 络 是 关于 自动 学 习 要 建 模 的 数据 的 潜在 ( 隐 含 ) 分 布 的 多 层 
复杂) 表达 的 算法 。 换 言 之 ,深度 学 习 算法 自动 地 提取 分 类 需要 的 高 层 抽象 特征 ,而 适当 地 
引入 显 式 或 隐 式 稀 玻 规则 将 有 助 于 克服 过 拟 合 现象 的 发 生 ,同时 提升 网 络 的 泛 化 性 能 。 
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CHAPTER 6 





深度 学 习 融 合 机 器 学 习 方 法 

里 深度 SVM 网 络 一 SYM 

加 深度 PCA 网 络 一 一 PCA 

m 深度 层级 识别 网 络 S-HMAX 一 一 稀疏 编码 、 表 示 


加 深度 ICA 网 络 一 ICA 

里 深度 ADMM 网 络 一 ADMM 算 法 

m 深度 极限 学 习 机 一 极限 学 习 机 ELM 
深度 森林 一 决策 树 、 随 机 森林 & MARS SS 
mE e grs abire 


B 深度 多 尺度 几何 网 络 一 多 尺度 几何 分 析 = SS < 
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6.1 深度 SVM 网 络 


在 本 节 中 ,将 深度 学 习 中 的 “深度 ”含义 与 机 器 学 习 中 经 典 的 支撑 向 量 机 (Support 
Vector Machine,SVMD) 算 法 相 结 合 , 形 成 深度 SVM 网 络 ,或 也 称 深 度 神经 支撑 向 量 机 。 下 
面 从 网 络 模型 形成 的 动机 、 拓 扑 结构 (数学 刻画 ) 和 实用 训练 技巧 等 三 个 方面 详 述 该 网 络 。 


6.1.1 从 神经 网 络 到 SVM 
首先 结合 图 6. 1, 从 数学 角度 给 出 经 典 的 三 层 前 馈 神经 网 络 与 支撑 向 量 机 SVM 的 区 别 





与 联系 . 
神经 网 络 支撑 向 量 机 
AS k(x, xj) 
x en 
> y > y= Yoko. x) 
图 6.1 神经 网 络 与 支撑 向 量 机 SVM 的 对 比 
1. 神经 网 络 


经 典 的 三 层 前 馈 神 经 网 络 模型 (输入 与 输出 之 间 的 关系 ) 为 : 


h(x) 一 ai(W。x 十 0) 
(6. D 
y = ox (o * h(x) +p) 


其 中 oa(。) 和 os(。…) 为 激活 函数 ( 非 线性 函数 ) ,h(x) 为 输入 x( 学 到 ) 的 隐 层 特征 。 通 常 , 基 
于 该 模型 所 构造 的 优化 目标 函数 ,其 中 待 优化 参数 9 二 (W,5;w ,B) 的 可 行 域 包含 太 多 的 局 
部 极 值 点 和 鞍点 ; 另外 ,该 模型 的 训练 性 能 和 泛 化 性 能 严重 依赖 数据 量 且 容易 出 现 过 拟 合 
现象 ,并 且 网 络 的 设计 ( 层 数 、 隐 单元 个 数 和 非 线性 函数 等 超 参数 的 设置 以 及 训练 阶段 参数 
初始 化 ,学 习 率 等 的 给 定 ) 随 着 人 为 给 定 而 固定 .虽然 可 以 利用 格式 搜索 的 方法 确定 超 参数 ， 
但 计算 代价 太 大 。 


CECR eL 


2. SVM 
经 典 的 线性 SVM 网 络 模型 为 : 
y=Wextod (6. 2) 
若 训练 数据 集 为 
(x? ,y YN, (6.3) 
根据 第 1 章 中 SVM 的 介绍 ,利用 其 对 偶 问 题 关 于 变量 偏 导数 求 导 ,得 到 : 
N 
w= Mao Py? x (6.4) 
式 (6.2) 可 进一步 改写 为 : 
y=We glx) +b (6.5) 
其 中 g(x) 为 x 的 特征 (通过 特征 学 习 获取 ), 则 : 
W= Mat? oy . ga) (6.6) 
进而 有 : 
y= da” « y? + (ex) g(r)) +b (6.7) 
根据 核 函 数 的 定义 ,可 得 到 : 


N 


y= Mae oy Hk ax) +6 


K(x ,x) = (op(x?).o(0) 
为 了 方便 , 且 由 于 输出 y 已 知 ,对 应 的 模型 进一步 简 记 为 : 
y= Da, K(x,x™) (6.9) 


n=l 
即 图 6.1 中 的 显示 。 众 所 周知 ,SVM 所 得 到 的 优化 目标 函数 为 凸 优化 问题 且 模 型 结构 中 内 
药 : 根据 支撑 向 量 (训练 数据 集 的 不 同 ,对 应 着 的 支撑 向 量 的 个 数 也 不 一 样 ) 自动 确定 模型 
的 尺寸 。 
那么 能 否 根 据 神 经 网 络 到 深度 神经 网 络 的 思路 ,将 SVM 也 对 应 着 形成 深度 网 络 模型 ， 
即 深度 SVM 网 络 ? 回答 是 肯定 的 ,M. A. Wiering 等 人 于 2013 年 提出 了 深度 SVM 网 络 。 


6.1.2 网 络 模型 的 结构 


首先 ,简单 地 给 出 深度 SVM 网 络 的 结构 ( 见 图 6. 2) ,核心 在 于 非 线性 单元 的 设计 ,下 面 
从 数据 、 模 型 .优化 目标 函数 和 求解 四 个 方面 详 述 并 理解 该 网 络 , 对 应 的 任务 为 回归 逼近 。 


1. 训练 数据 集 


GER gs? ERR (6. 10) 
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输入 
图 6.2 深度 SVM 网 络 结构 


2. 模型 


设 模型 输入 为 x, 输 出 为 y, 其 中 的 关系 为 : 
h = (hy sham) 
N (6. 11) 
h = afe (x? ,x) +h 
其 中 x(，) 为 核 函 数 ,根据 SVM 隐 层 每 个 节点 的 输出 h (e — 1.2. KO A of? Rl o, 为 第 
k DEES GH SVM 优化 目标 函数 ) 的 参数 与 偏 置 ; 值得 注意 的 是 : hh 并 不 是 一 维 的 ( 通 
过 式 (6.7) 理 解 ) ,根据 需要 ,可 以 随意 定义 。 接 下 来 将 隐 层 特征 h 作为 下 一 个 非 线 性 单元 
(SVM 单元 ) 的 输入 , 即 有 : 
y= SB? + lh sh) +c 


n=l 
BO = CAP hP hg] (6. 12) 


Lbs Usi ERN SI DM IE RD uti d EN 
3. 优化 目标 函数 
优化 目标 函数 为 
minJ (0) -iXi | y? — y? |? +a RO (6.13) 


其 中 参数 为 : 
0 = (a,b;B;c) 
a= (ap WE. b= (E 


符号 R (D OY E BUS Cf] f RT LL A f it 1E DUIS) 。 


D 第 6 章 ”深度 融合 网 络 


4. 求解 


采用 梯度 下 降 的 方式 实现 参数 的 优化 学 习 , 其 核心 便 是 误差 传播 项 的 偏 导 数 求解 ,由 于 
图 6. 2 中 的 网 络 结构 仅 包含 一 个 隐 层 ,所 以 误差 传播 项 为 : 


5 = 210) (us IJ .. 9]C0) 
Oh 9h, ' 9h; ' ”hk 


然后 利用 链 式 法 则 ,进行 逐 层 参 数 的 更 新 (与 之 前 深度 前 馈 神经 网 络 的 更 新 策略 类 似 ,这 里 
FFOR). 

通过 以 上 四 个 方面 的 分 析 , 可 以 看 到 模型 的 深度 可 以 通过 式 (6. 11) 实 现 扩 展 ,直至 形成 
深度 SVM 模型 ,严格 意义 上 ,图 6. 2 中 的 网 络 结构 ( 仅 包含 一 个 隐 层 ,或 两 个 层级 下 的 多 
SVM 模式 的 组 合 ) 不 应 称 为 深度 SVM 模型 。 


6.1.3 训练 技巧 


针对 中 小 规模 的 十 种 不 同 的 数据 集 , 利 用 SVM 和 深度 SVM 2r SIE IL E45 38 VT , 
研究 发 现 图 6.2 所 对 应 的 深度 SVM 网 络 整体 上 优 于 SVM 网 络 (通过 均 方 误差 所 衡量 的 损 
失 函 数 大 小 ) ,实际 应 用 中 ,由 于 数据 量 级 的 限制 ,对 于 深度 SVM 网 络 增加 层级 .或 进行 数 
据 扩张 等 策略 与 技巧 ,能 否 进 一 步 提升 网 络 的 性 能 , 需 进 一 步 研究 。 

为 了 使 得 由 多 个 浅 层 网 络 堆栈 形成 的 深度 SVM 网 络 奏效 ,通常 激活 ( 非 线 性 ) 函数 的 
选取 为 径 向 基 函 数 ,解决 SVM 两 个 缺点 (一 是 模型 的 性 能 取决 于 先 验 选择 的 核 函 数 ; 二 是 
具有 单 层 可 调整 的 网 络 参数 ,其 模型 的 表征 能 力 有 限 ) 的 深度 SVM 网 络 模 型 具有 如 下 的 优 
35. 可 有 效 地 预防 过 拟 合 现象 ,可 有 效 地 根据 支撑 向 量 的 个 数 自动 确定 模型 的 尺寸 等 。 

备注 : 关于 深度 SVM 的 参考 链接 为 http://videolectures. net/roks2013_wiering_vector/. 











(6.14) 


6.2 深度 PCA 网 络 


一 般 认为 ,深度 学 习 的 核心 在 于 自 适应 (层级 ) 特 征 的 提取 ,本 节 所 描述 的 深度 PCA( 主 
成 分 分 析 ) 网 络 ,是 指 一 种 基于 深度 卷 积 神经 网 络 架 构 的 PCA 参数 初始 化 的 无 监督 学 习 方 
式 , 其 核心 在 于 卷 积 流 模块 中 卷 积 操作 所 使 用 的 滤波 器 的 学 习 。 需 要 注意 的 是 : 该 网 络 的 
模式 仍 为 (无 监督 ) 预 训练 十 (有 监督 ) 精 调 的 半 监 督学 习 方式 。 本 节 的 重点 不 在 于 对 整个 网 
络 进 行 分 析 , 仅 对 深度 卷 积 神经 网 络 中 参数 初始 化 阶段 ,滤波 器 的 学 习 进 行 理解 。 下 面 从 数 
据 、 滤 波 器 学 习 等 两 个 方面 进行 深度 PCA 网 络 的 陈述 。 


1. 数据 


{2 € Re, y® c g^) | — Train Data 
| (6.15) 


{2 € 了 Rsz2x32@3 } 工 ; 一 > Test Data 


数据 集 总 的 个 数 为 NHT. 
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2. 滤波 器 学 习 ( 参 数 初 始 化 ) 
对 于 经 典 的 深度 卷 积 神经 网 络 LeNet 网 络 , 见 图 6. 3, 其 中 左 侧 实 线 框 与 右 侧 实 线 框 为 
待 学习 的 滤波 器 ,其 大 小 均 为 5X5@64。 














uw 2 | 64 1024 512 














采样 层 GEJA 采样 层 全 连接 层 输出 
图 6.3 LeNet 网 络 结构 





对 于 每 一 幅 输入 xz, 由 于 滤波 器 的 大 小 为 5X5X3, 共 计 64 个; 所 以 ,以 窗口 大 小 为 5X 
5X3 对 输入 进行 滑 块 处 理 , 得 到 (32 一 5 十 1)? — 784 个 大 小 为 5X5X3 的 块 ,将 每 一 块 先 按 
行 再 按 通 道 (三 个 通道 ) 拉 成 一 列 , 得 到 75 维 向 量 , 最 后 对 于 输入 xz, 便 得 到 相对 应 的 一 个 矩 
BE MC) ER; 由 式 (6.15) 知 道 ,测试 数据 集 共 有 工 幅 ,将 这 些 所 对 应 的 矩阵 堆栈 起 来 ， 
形成 如 下 的 矩阵 ， 


M = [M(x ),---, Ma? )] € RED (6. 16) 
然后 ,对 和 矩阵 M 做 完 相 应 预 处 理 后 ,进行 奇异 值 分 解 , 得 到 : 
M-U-Z-V" (6.17) 
根据 奇异 值 diag CE ) 的 大 小 次 序 ,选择 前 64 个 特征 值 所 对 应 的 特征 向 量 , 并 记 为 
We g« (6.18) 
进一步 ,将 其 按 通道 再 按 行 “ 逆 向 ”得 到 滤波 器 组 ; 
Wired E Roast (6. 19) 


即 64 个 滤波 器 ,每 个 滤波 器 的 大 小 为 5X5X3, 这 个 便 作为 输入 层 至 第 一 隐 层 卷 积 操作 中 
滤波 器 的 参数 初始 化 。 

进一步 利用 池 化 后 的 第 二 个 隐 层 作为 输入 X, 其 大 小 为 14X14X64, 注 意 此 时 输入 的 
通道 个 数 为 64, 待 学 习 的 滤波 器 个 数 为 64, 其 大 小 为 5X5X64, 每 一 幅 输 入 对 应 的 矩阵 为 : 


M(X) € Ri (6. 20) 
同 理 , 基 于 测试 数据 集 , 便 可 以 得 到 如 下 的 矩阵 : 
M = [M(OX?) ,--- ,MCOX??)] €. RoD (6. 21) 


同 理 , 对 该 矩阵 进行 奇异 值 分 解 ,得 到 其 奇异 值 的 前 64 个 特征 值 所 对 应 的 特征 向 量 , 并 按 通 
道 再 按 行 “逆向 ”得 到 滤波 器 组 : 

W ‘layers? € 了 RS5xsx64@64 (6. 22) 

至 此 , 便 完 成 了 基于 深度 卷 积 神经 网 络 架构 的 PCA 参数 初始 化 的 工作 。 后 面 的 处 理 ， 


& 


Q 22 深度 融合 网 络 
包括 精 调 等 ,与 深度 卷 积 神经 网 络 一 致 3X BAR BESESR , 
6.3 深度 ADMM 网 络 


众所周知 ,对 于 深度 学 习 的 研究 ,从 模型 设计 方面 , 超 参 数 ( 层 数 、 隐 层 结 点 个 数 .激活 函 
数 等 ) 的 确定 一 直 难 以 进行 量化 分 析 ; 从 算法 分 析 角 度 来 看 ,模型 的 参数 与 数据 量 之 间 的 关 
系 , 使 得 原本 高 度 非 线 性 的 函数 ( 即 输 入 与 输出 之 间 的 关系 ) 易 出 现 过 拟 合 或 欠 拟 合 现象 , 进 
而 导致 模型 学 到 的 参数 不 收敛 且 出 现 梯度 弥散 的 现象 。 什 么 是 深度 ADMM 网 络 ? 如 何 解 
决 超 参 数 的 设置 问题 以 及 算法 的 收敛 特性 ? 首先 ,ADMM 是 一 种 非 凸 优化 问题 的 求解 方 
式 , 通 过 引入 中 间 变 量 将 正则 项 中 参量 从 单 目 标 函数 中 脱离 处 理 ,通过 两 个 子 问题 (基于 损 
失 项 的 凸 优化 问题 与 基于 正则 项 的 软 闵 值 求解 ) 的 交替 求解 来 到 近 原 目标 的 解 ,与 常见 的 
OMP 算法 和 BP 算法 不 同 。 其 次 ,为 了 结合 深度 学 习 与 ADMM 算法 并 实现 各 自 优 势 互 补 ， 
从 而 形成 深度 ADMM 网 络 ; 该 网 络 类 似 于 深度 反 卷 积 神经 网 络 , 如 何 优化 每 一 个 模块 的 
参数 , 即 卷 积 稀疏 编码 下 的 合成 滤波 器 与 系数 ? 使 用 的 方法 是 ADMM 算法 。 最 后 ,从 数 
据 、 模 型 .优化 目标 函数 和 求解 四 个 方面 对 深度 ADMM 网 络 进行 详 述 , 先 给 出 深度 ADMM 
网 络 的 架构 ,如 图 6.4 所 示 。 
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图 6.4 深度 ADMM 网 络 结构 


1. 数据 
{y € R" Ha (6.23) 
注意 ,这 里 该 网 络 用 于 重 构 任务 ,其 中 y € R^ 是 观测 数据 集 , 即 对 原始 场景 YER: 通过 观测 
ABI pb ER" 和 获取 ,通常 mm <s, 重 构 任 务 的 目的 便 是 利用 已 知 的 观测 数据 集 恢复 或 重 构 出 


原始 场景 。 
备注 : 可 以 参考 第 1 章 稀 朴 表示 相关 知识 点 (压缩 感知 部 分 ) 。 
2. 模型 


y=@-x 
(6. 24) 
a=D-x 


9e 
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其 中 y 的 获取 是 通过 观测 矩阵 更 对 场景 的 观测 得 到 的 , 即 数据 的 获取 方式 ; 另外 为 了 导出 
原始 场景 中 的 某 种 先 验 , 例 如 稀 朴 性 等 , 即 利 用 滤波 器 卫 得 到 原始 场景 的 某 种 表示 系数 w 
来 表征 ; 需要 注意 的 是 € R”’ 中 mm 一 s, 而 带 来 稀 疏 性 的 滤波 器 DE RC WA rs. TH, 
利用 滤波 器 组 来 获取 原始 场景 中 的 某 种 先 验 认 知 , 例 如 {D,€ R™ Yim o 





3. 优化 目标 函数 
min J((x?)25.0.D) 
(2) ,@D 
L 
=. 2h eon l+ Da < pD, x0) (6. 25) 
2 N= 121 


其 中 正则 项 中 a = 1.2. LOUER E SD; = 1.2.7 LL A EUER oC * 008 
CR LE NU] p c , I WN X TRE L, (OS p— D ERE s HAA pb 为 观测 矩阵 。 

假设 观测 矩阵 和 滤波 器 组 都 已 给 定 , 不 青 需 要 训练 学 习 获 取 ; 所 以 对 于 观测 数据 y, 其 
目标 函数 可 写 为 : 


L 
min Jl y— «x li De oD, + x) (6. 26) 
* i=l 


4. 求解 
这 里 重点 求解 的 是 优化 目标 (6. 26) ,利用 ADMM 算法 ,通过 引入 中 间 变 量 < 二 D,* x. 
故 目标 函数 可 以 进一步 写 为 ， 


工 
e | 
min + || —ó-xlic- Ma: (z1) 
na? iE a (6. 27) 


s.tz-—D-:x. L=1,2,°°,L 


转化 为 无 约束 目标 函数 : 
min yt Dar pla) — $9Au-Dn:0-5 % || as — Dy xli 
EIN m m ia 
(6. 28) 
和 迭代 优化 求解 公式 为 : 








L L 
x? = arg min } ly —e-x12— >) (zj 一 Di x) + >) = ll zi? —D, + xl 
» ii ii 
L L L 
z^? = arg min 91A, pz) — >) (I? .z, — D, + x^?) + S L l| z —D,*x** ||} 
* m i-i 1-1 


L 
^9 — arg min) (Bz? — D, « x) 
8 fel 


(6. 29) 
注意 1 为 第 t KER B Ah zx” ME. 简 记 为 : 


xem 深度 融合 网 络 CT 


A 


zo 220 ya go 全 (Bo" Ha (6. 30) 
进一步 ,关于 式 (6. 29) 有 : 


L $i L 
x? = le 6». corp] le ey- 210 + QI? y, de 
tmj i=1 


WD n NT rp Ar - ae 
z? f = s(n. x? --&g aam 1.2, sk 
?.g? — g? tg. (zi? — D, « x) 
其 中 ;为 学 习 速 率 ,这 样 便 可 以 交替 更 新 直至 收敛 , 求 出 原始 场景 x, 即 


limx® = x (6. 32) 


接 下 来 ,为 了 与 深度 卷 积 神经 网 络 建立 相应 的 操作 分 析 关系 ,类 比 卷 积 \ 非 线性 ` 池 化 等 
操作 ,基于 式 (6. 31) 分 析 ADMM 策略 含义 如 下 : 首先 , 卷 积 层 为 线性 处 理 后 得 到 若干 特征 
图 , 记 为 模块 XO LB x” 的 更 新 ,本 质 上 为 线性 操作 。 其 次 非 线 性 处 理 (激活 函数 ) , 记 为 模 
He CO ,其 中 收缩 函数 S(，) 为 非 线 性 函数 , 即 模块 X2 到 ZO 的 非 线 性 映射 。 最 后 参数 更 
新 层 , 即 模块 MO 包括 B”, 学 习 速 率 % 等。 另外 需要 注意 的 是 网 络 结构 中 的 “深度 ”是 指 更 
新 的 迭代 次 数 , 即 见 图 6. 3。 


6.4 深度 极限 学 习 机 


6.4.1 极限 学 习 机 


极限 学 习 机 也 称 超 限 学 习 机 , 它 是 一 种 新 型 的 快速 学 习 算法 ,对 于 单 隐 层 神经 网 络 , 它 
可 以 随机 初始 化 输入 层 与 隐 层 之 间 的 权 值 连接 矩阵 和 偏 置 ,并 通过 学 习 或 训练 得 到 隐 层 到 
输出 层 之 间 的 权 值 矩阵 。 下 面 给 出 其 网 络 结构 ,如 图 6. 5 所 示 。 


随机 化 权 值 与 偏 置 
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图 6.5 极限 学 习 机 的 网 络 结构 
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另外 ,极限 学 习 机 的 优势 在 于 : 只 需要 设置 网 络 的 隐 层 节点 个 数 ,在 算法 执行 过 程 中 不 
需要 调整 网 络 的 输入 层 到 隐 层 的 权 值 及 偏 置 ,并 产生 唯一 的 最 优 解 , 具 有 学 习 速 度 快 且 泛 化 
性 能 好 的 优点 。 


1. 数据 
(x? € Ry? € RE, (6, 33) 
2. 模型 
h, = o(W, +x +b.) ER 
| (6. 34) 
y-pg-h.-c€R 
注意 随 着 输入 的 不 同 BG Hc AL Se AE EE (E. BIDSET A A, x A , 则 有 : 
W,» ÆW,» 
| (6. 35) 
b,» Æ b,» 


同时 , 权 值 与 偏 置 (W, ,b, ) 不 需要 学 习 , 服 从 某 种 分 布下 的 随机 化 获取 , 待 学 习 的 参数 为 (B ,ce) 。 
其 中 隐 层 节点 的 个 数 为 7, 所 以 (WE Rb, ER) BER” ACER: co(，) 为 激活 函数 。 


3. 优化 目标 函数 


N 
min > ly — $ uà (6. 36) 
将 其 展开 ,并 令 y" =F Qi—1.2. ND ,得 到 : 
B+:H+C=Y (6. 37) 
其 中 隐 层 特征 为 : 
H = [hw sho sho ] € REN (6. 38) 


JE r<N; 另外 ,符号 C 和 期 望 输出 Y 为 : 
C 一 [cyc,…c] € R 


Y = Ly , y? ey] € REN 


(6. 39) 


4. 求解 


接 下 来 ,对 式 (6. 37) 利 用 Moore-Penrose 广义 道 ,通常 为 了 计算 方便 ,将 隐 层 到 输出 层 
之 间 的 偏 置 设置 为 C=0E RR , 故 得 到 : 
B-Y-H (6. 40) 
这 里 H'—H'(H + BT) ;已 经 证 明 , 一 旦 输入 到 隐 层 之 间 的 权 值 矩 阵 和 隐 层 偏 置 被 随机 
确定 , 则 隐 层 的 输出 矩阵 H 就 被 唯一 确定 , 求 得 的 B 是 满足 优化 目标 函数 (6. 36) 最 小 的 、 且 
唯一 的 解 。 
注意 一 : 若 吾 .HTER" 不 可 逆 , 则 需要 加 正则 项 ,得 到 : 





C g 
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其 中 4 为 拉 格 朗 日 因子 , 即 给 优化 目标 函数 (6.36) 加 入 如 下 的 正则 项 ,得 到 : 





min ET 中 一 知性 十 去 | pil (6. 42) 


注意 二 : 核 极限 学 5 SE nau dU eR S 5 偏 置 根据 输入 得 到 隐 层 输出 的 过 
程 , 即 式 (6. 34) 中 的 : 





h, = o(W, - x +b,) (6.43) 
依据 输入 与 输出 之 间 的 关系 , 且 rN, BUYS AS OA EAS BC 
y=Beh, —Y- HÝ « h; -Y- CHT - FD? - H’ +h, (6. 44) 
TERE IO (93: Hr NEN: 
Ht = (H"-H)"- HT (6. 45) 
SIA PRR HEA : 
KCXI XI) … KX XN) 
H -H= | i ED : k RM (6. 46) 
HKCXN XI) c k(xy XN) 
其 中 x(。,。) 为 核 函 数 ,进而 有 : 
K(X, x) 
H" -h, = 1 k R™ (6.47) 
k(xXN x) 
所 以 ,根据 式 (6. 44) 输 入 输出 之 间 的 公式 可 写 为 : 
kQj.xi) c kGa XN) 7)? K(X, x) 
y-Y- | i i i | | : | (6.48) 
KC XN XI) … k(xy Xx) K(XN +X) 








6.4.2 深度 极限 学 习 机 


深度 极限 学 习 机 的 基本 模块 是 基于 极限 学 
习 机 的 自 编码 网 络 , 所 以 下 面 来 详 述 深度 极限 学 
习 机 。 


1. 基于 极限 学 习 机 的 自 编码 网 络 


该 网 络 结构 (图 6. 6) 的 核心 是 学 习 参 数 B. 
输入 与 期 望 输出 是 一 致 的 ,所 以 是 一 种 无 监督 的 
学 习 方 式 , 其 过 程 类 似 于 6. 4. 1 节 , 不 过 将 输入 
替代 为 输出 , 即 式 (6. 33) 中 数据 变 为 ， 输入 隐 层 输出 

{x E RN, (6.49) 6.6 基于 极限 学 习 机 的 自 编码 网 络 结构 
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C 。 基 后 关于 参数 8 的 求解 过 程 ,与 之 前 一 致 ,这 里 不 再 芍 述 。 
备注 : 关于 自 编码 网 络 的 详细 描述 参考 第 4 章 。 
2. 深度 极限 学 习 机 


下 面 基于 极限 学 习 机 的 自 编码 网 络 ,通过 逐 层 堆栈 的 方式 形成 深度 极限 学 习 机 ,其 网 络 
结构 的 模型 如 图 6.7 所 示 。 


基于 极限 学 习 机 自 编 码 网 络 ET 关 习 机 自 编码 网 络 
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图 6.7 深度 极限 学 习 机 的 网 络 结构 (下 方 虚线 框 


下 面 从 数据 ,模型 .优化 目标 函数 和 求解 四 个 方面 来 详 述 和 理解 该 网 络 的 结构 特性 。 
1) 数据 
{x € R™,y™ € RJ, — Train Data 
(x? € R")Z, —- Test Data 
其 中 测试 数据 集 用 于 学 习 层 级 间 的 参数 (类 似 逐 层 学 习 参 数 初始 化 ) ,训练 数据 集 用 于 精 调 
整个 网 络 ,特别 是 深度 极限 学 习 机 中 的 回归 器 或 分 类 器 的 设计 。 


(6.50) 


2) 模型 
h, = o(g? - hi.) 
l B oh, 
其 中 11.2, L, B ho =x, BRR? 六 :可 以 通过 无 监督 学 习 方式 下 的 极限 学 习 机 自 编码 
网 络 学 习 得 到 ,另外 o(。) 为 激活 函数 ,BR 为 最 后 回归 器 或 分 类 器 设计 阶段 的 参数 , 即 若 已 
知 第 工 个 隐 层 的 特征 hi ,将 其 视 为 极限 学 习 机 的 输入 ,与 输出 y 建立 关系 , 待 学 习 的 参数 便 


(6. 51) 


为 BR 。 
3) 优化 目标 函数 
qux ix | $9 —y [2351 Lg? i vll Belle (6.52) 
其 中 参数 初始 化 的 过 程 (测试 数据 集 上 进行 无 监督 学 习 ) 采 用 如 下 的 目标 函数 : 
; 1x w fw ye S D || 2 
min 2 la^ hP lta. I B^ Ng (6.53) 
其 中 ， 
hP = g^? « o(W'^ » h +b”) (6.54) 


ASO AY oC + TEE PRB. BBW 6 ) 为 第 L— 1 个 隐 层 到 第 /个 隐 层 之 间 的 随机 化 初 
始 权 值 矩 阵 与 偏 置 ( 服 从 某 种 概率 分 布下 的 采样 ) ,注意 RD =x 。 

4) 求解 

关于 式 (6.53) 的 求解 参考 极限 学 习 机 的 求解 部 分 ,这 里 不 再 缆 述 ; 另外 关于 整个 深度 
极限 学 习 机 的 网 络 精 调 ,利用 随机 梯度 下 降 的 方式 进行 。 

综 上 所 述 ,深度 极限 学 习 机 可 以 提取 出 数据 中 高 层次 的 抽象 信息 ; 极限 学 习 机 的 理论 
避免 了 网 络 权 值 的 反复 迭代 调整 ,提高 了 计算 效率 ; 另外 , 半 监 督 的 逐 层 训练 机 制 解决 了 很 
多 实际 问题 中 训练 标签 难以 获取 的 问题 。 因 此 ,深度 极限 学 习 机 能 同时 有 效 地 解决 大 数据 
时 代 高 维度 , 异 构 数据 ,获取 标记 样本 难 、 构 造 特征 难 、 训 练 难 等 问题 。 

备注 : 更 多 关于 深度 或 多 层 极限 学 习 机 的 理论 \ 代 码 与 应 用 可 以 参考 黄 广 斌 的 个 人 网 
页 ; http://www. ntu. edu. sg/home/egbhuang/elm_codes. html. 


6.5 深度 多 尺度 几何 网 络 


深度 多 尺度 几何 网 络 是 指 基 于 三 代 小 波 ( 例 如 疹 波 、 曲 波 、 轮 廓 波 \、 棉 形 波 等 ) 所 构建 的 
深度 神经 网 络 ,与 传统 的 基于 一 代 小 波 ( 例 如 Meyer 小 波 、Morlet 小 波 、Haar 小 波 、 
Gaussian 小 波 、Doubechies 小 波 系列 等 ) 所 构建 的 深度 神经 网 络 主要 不 同 之 处 在 于 : 一 是 几 
乎 不 再 使 用 (三 代 ) 小 波 作为 激活 函数 ,来 调整 隐 层 线性 输出 后 的 扭曲 程度 或 响应 特性 ,更 多 
地 使 用 在 权 值 矩阵 初始 化 多 尺度 或 多 通路 网 络 的 设计 中 ,以 避免 过 早 地 陷入 局 部 最 优 ,以 
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及 获取 同一 层级 不 同 分 辩 率 下 (或 角度 下 ) 的 特征 来 提升 网 络 表征 能 力 。 二 是 三 代 小 波 相 比 
一 代 小 波 更 易 获 取 输入 场景 (图 像 ) 多 频带 、 多 角度 下 的 拓扑 (几何 结构 ) 特 性 描述 ,类 比 于 生 
物 神经 系统 , 腹 侧 视觉 通路 不 仅 能 够 回答 看 到 的 事物 是 什么 这 个 生物 学 功能 ,而 且 这 种 生物 
学 功能 中 还 蕴含 着 不 依赖 事物 的 远近 (数学 上 描述 为 分 状 率 ) 、 角 度 等 ,深度 神经 网 络 恰好 能 
够 模拟 这 个 功能 ,而 它 与 三 代 小 波 (多 尺度 几何 分 析 ) 的 结合 更 易 体现 蕴含 着 的 特性 。 这 里 ， 
我 们 仪 对 深度 冰 波 网 络 、 深 度 轮 廓 波 网 络 作 以 详细 的 描述 。 


6.5.1 PREP DEA 


HT Jr fi FAE, A H, RIA Hh AE EA PC) EL?(R ) 满 足 容许 性 条 
件 , 即 





jw) |? 
c=] (sen Ja <+ (6. 55) 
R lol 
其 中 ， 
fw) = Jooo (6. 56) 


Fk y(zx) 为 容许 性 神经 激活 函数 ; EM AG, H IA PR BG E DI FF PRÉC 
1 uer—b 
pum = (===) 
a E€ Rt,bER u E€ S”, |lul =1 
HEW HEP S HAR IE Ga bu SPH ERR BE DAL .平移 因子 和 方向 因子 。 
通常 将 神经 网 络 中 的 激活 函数 (例如 Sigmoid PR BCE) FE EE UK OE PE ARIE TE UBI ZR I8] 
络 , 其 结构 如 图 6.8 所 示 。 
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1. 数据 
(x? € R',y? € RL, (6. 58) 
2. 模型 
u*x—b u(1,:) +x—bQ) usi) *x—b(s)))" " 
of a ) (of a(1) )--X a(s) ) ER 
u+ x—b (6. 59) 
h — o(u * x —b) « A ) 
y=w-h+pE R 
模型 中 待 优化 的 参数 为 : 
0 = [u,b.a;w.ß] (6. 60) 
3. 优化 目标 函数 
i< À Y 
: ou) e 2 a $a 2 
min] (0) 272.1 $ y^ WE + luli olt (6.6) 
4. 求解 
按照 梯度 下 降 法 可 以 求 出 相应 的 参数 更 新 公式 , 即 
ai = — 7° 1o | 
BY? = BY — q+ ?B pg» 
at? = a® — ye 2a |, u^ (6. 62) 
u^» = y 一 7° ?u lena 


poto = poe 1° 2B uo 
其 中 7 为 学 习 速 率 , 梯 度 下 降 量 分 别 为 : 
E 
tw |... = DGP — y") WIT y e |, wo € R™ 
Blew = DG —9) |, yo ER 

进一步 ,通过 引入 隐 层 的 误差 传播 项 ,利用 链 式 法 则 便 可 以 求解 参数 (a,b,u) 的 梯度 下 
降 量 。 这 里 不 再 袭 述 。 

综 上 所 述 ,根据 三 层 的 桨 波 神 经 网 络 可 以 利用 自 编码 的 方式 通过 逐 层 堆栈 的 方式 形成 
深度 次 波 神经 网 络 。 该 模型 的 优点 : 一 是 半 监 督 的 学 习 方式 (无 监督 逐 层 参数 初始 化 加 有 
监督 整体 网 络 精 调 ); 二 是 融入 峭 波 的 特性 , 即 灵活 的 结构 和 快速 并 行 的 处 理 速 度 ,以 及 较 
强 的 容错 性 和 和 鲁 棒 性 等 。 


6.5.2 深度 轮廓 波 网 络 
自从 轮廓 波 被 提出 以 后 ,探索 轮廓 波 变换 后 的 数据 特征 ,已 发 现 该 变换 能 够 带 来 稀疏 


(6. 63) 


RES. HES < 
ES OE 


性 ,多 尺度 特性 、 多 方向 性 、 局 部 化 、 低 元 余 度 ,平移 不 变性 、 容 易 实 现 和 计算 高 效 等 众多 的 性 
质 , 能 否 将 其 与 深度 神经 网 络 进行 结合 ,充分 发 挥 二 者 各 自 的 优势 ? 为 了 探索 研究 该 问题 ， 
首先 ,轮廓 波 变 换 的 核心 思想 是 在 多 尺度 的 基础 上 实现 方向 信息 的 获取 ,其 变换 所 对 应 的 滤 
波 器 分 为 拉 普 拉 斯 塔 式 分 解 和 方向 滤波 器 组 两 部 分 ,其 中 拉 普 拉 斯 金字 塔 滤波 器 主要 完成 
奇异 点 的 分 离 任务 ; 方向 滤波 器 主要 完成 奇异 点 的 收集 工作 , 即 利用 方向 基本 相同 的 准 
则 ,将 奇异 点 收集 到 一 个 基 函 数 上 集中 描述 ,常用 轮廓 波 的 变换 有 非 下 采样 轮廓 波 变换 、 
全 相位 轮廓 波 变换 、 基 于 小 波 的 轮廓 波 变换 、 抗 混和 到 轮廓 波 变换 以 及 复 轮廓 波 变 换 等 。 
其 次 ,本 节 主 要 描述 非 下 采样 轮廓 波 变换 与 深度 神经 网 络 的 结合 ,给 出 深度 轮廓 波 网 络 
的 整体 结构 。 


l. 非 下 采样 轮廓 波 变换 


如 图 6. 9 所 示 , 对 于 输入 图 像 , 利 用 拉 普 拉 斯 金字 塔 分 解 (分 解 阶段 包含 两 个 滤波 器 ,一 
个 是 低 通 滤波 器 (主要 获取 输入 中 的 低频 成 分 ); 另 一 个 是 高 通 滤波 器 (主要 获取 高 频 成 
分 )); 进一步 利用 方向 滤波 器 组 对 高 频 成 分 进行 滤波 ,其 中 方向 为 人 工 设置 (如 图 中 设置 为 
8 个 方向 ); 那么 经 过 一 级 分 解 过 后 的 变换 系数 为 8 个 方向 下 的 高 频 成 分 和 一 个 低频 成 分 ; 
如 果 进 行 两 级 分 解 ,只 需 对 低频 成 分 如 是 操作 ,即将 低频 成 分 视 为 第 二 级 分 解 的 输入 ,注意 
由 于 是 非 下 采样 ,所 以 得 到 的 所 有 变换 系数 的 尺寸 与 输入 一 致 ; 类 似 于 小 波 分 解 ,只 对 低频 
成 分 进行 拉 普 拉 斯 金字 塔 分 解 ,对 高 频 成 分 进行 不 同方 向 下 的 滤波 处 理 。 值 得 指出 的 是 , 非 
下 采样 的 轮廓 波 变换 与 轮廓 波 变换 的 区 别 主要 在 于 是 否 进行 下 采样 的 操作 , 若 进行 下 采样 
操作 , 则 随 着 层级 的 分 解 在 低频 成 分 上 进行 操作 。 另 外 ,不 论 是 拉 普 拉 斯 金字 塔 分 解 还 是 方 
向 滤波 器 ,其 滤波 器 的 构造 独立 于 输入 信号 , 即 所 有 的 滤波 器 事先 确定 。 








不 同方 向 下 的 高 频 成 分 








将 低频 成 分 视 为 第 二 级 分 解 的 答 入， 获取 
低频 成 分 和 不 同方 向 下 的 高 频 成 分 ， 依 次 
进行 …… 




















图 6.9 非 下 采样 轮廓 波 变换 (一 级 分 解 ) 
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非 下 采样 轮廓 波 变换 所 对 应 的 数学 公式 为 : 一 级 分 解 , 分 为 两 个 阶段 ,一 是 拉 普 拉 斯 塔 
式 分 解 : 
xP = x * PFP cR" 
(6. 64) 
xP = x * PFP € R™ 


其 中 xe R” AAAS PFP Haf (Decomposition) Br Ez ff) eal dE JE AE. xP? 为 一 级 分 
解 后 的 高 频 成 分 ; PFP 为 低 通 滤波 器 ,xi? 为 一 级 分 解 后 的 低频 成 分 ,通常 也 记 输 入 xD? 二 x; 
二 是 方向 滤波 器 组 : 
xia = xy * DF, € R"" 
aie tng * DF, E€ R (6.65) 
xx = xi? * DFk € R™ 
其 中 DFi(k 二 1,2,…,K) 为 方向 滤波 器 组 ,通常 K 为 取 2 的 指数 级 ,那么 对 输入 xt? 进行 
一 级 非 下 采样 轮廓 波 分 解 后 的 变换 系数 为 : 
XO = [GM xt] (6. 66) 
若 对 输入 a1? 进行 两 级 分 解 , 则 只 需 继续 对 c1 再 进行 一 次 一 级 分 解 即 可 ,需要 注意 的 是 : 
这 两 级 中 ,每 一 级 上 对 高 频 成 分 进行 方向 滤波 的 个 数 可 能 是 不 同 的 。 


2. 深度 轮廓 波 网 络 


若 利用 非 下 采样 轮廓 波 变换 对 输入 进行 处 理 后 ,得 到 轮廓 波 变换 系数 ,例如 一 级 分 解 后 

的 式 (6. 66) ,其 个 数 为 天 十 1 个 特征 图 ,每 幅 特征 图 的 大 小 与 输入 一 致 ,本 质 上 ,这 一 步 也 可 
视 为 深度 卷 积 神经 网 络 中 的 卷 积 操作 ,将 非 下 采样 轮廓 波 变换 后 得 到 的 特征 图 ,再 接 池 化 、 
非 线性 和 批量 归 一 化 等 操作 ,换言之 ,深度 卷 积 神经 网 络 中 第 一 卷 积 流 ( 即 卷 积 、 池 化 、 非 线 
性 和 批量 归 一 化 等 操作 ) 没 有 可 优化 的 参数 ,将 第 一 卷 积 流 后 的 输出 (也 可 视 为 输入 的 特征 ) 
再 放 和 人 后 续 “ 卷 积 网 络 ? 中 ,实现 模型 参数 的 优化 学 习 。 这 样 处 理 的 合理 性 在 于 : 由 于 第 一 
卷 积 流 获 取 输 入 的 浅 层 特征 ,如 边缘 纹理 、 角 等 ,可 利用 已 有 的 、 且 符合 初级 视觉 皮层 的 变 
换 (例如 Gobor 变换 、 轮 廓 波 变换 等 ) 所 替代 , 尽 可 能 地 减少 深度 卷 积 网 络 模型 所 学 习 的 参 
数量 ,间接 增加 训练 样本 集 的 个 数 ,以 期 提升 网 络 的 泛 化 性 能 。 上 述 过 程 的 数学 描述 为 : 假 
设 深度 卷 积 神经 网 络 的 架构 为 : 

X = CPRN(x.0,) 

X? = CPRN(X® ,0,) 


X = CPRNCXC ,0,) 


(6. 67) 
F® = FC(X® ,0.n) 


FP = FC(F™ , O47) 
y = o( F™ ,w) 
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其 中 CPRN 分 别 代表 着 卷 积 (Convolution) , ili f£ (Pooling) 、 非 线性 激活 (ReLU) 和 归 一 化 
(Normalization) ,注意 这 里 的 CPRN 是 一 种 组 合 , 即 卷 积 流 ,以 卷 积 为 核心 操作 ,其 他 的 三 
个 操作 可 以 选择 性 地 添加 。 另 外 9.(i=1,2,…, 江 十 T) 为 相应 层级 或 ( 卷 积 流 ) 模 块 上 的 超 
参数 和 参数 ; FC 为 全 连接 层 (T 为 全 连接 层 的 层 数 ), 最 后 得 到 高 层 抽象 特征 PO 后 ,设计 
分 类 器 或 回归 器 ,实现 输出 。 利 用 非 线性 轮廓 波 变换 对 式 (6. 67) 中 第 一 卷 积 流 中 的 卷 积 操 
作 进 行 替换 , 即 


XO = CPRN(x,0,) ŽŽ PRNCNSCT(x.2) ,0 ) (6. 68) 


其 中 NSCT(x,7) 为 对 输入 x 进行 级 分 解 后 的 特征 图 ,0 为 池 化 、 非 线性 和 批量 归 一 化 所 
对 应 的 参数 指标 集 。 得 到 XO 后 , 式 (6. 67) 剩 余 的 操作 与 之 前 一 致 , 这 里 不 再 袭 述 。 


6.6 深度 森林 


本 质 上 ,深度 森林 性 能 的 提升 依赖 于 层级 间 与 层级 内 随机 森林 以 及 基 学 习 器 决策 树 的 
差异 性 ,整个 网 络 的 架构 见 图 6. 10, 主 要 分 为 两 部 分 ,一 是 多 分 辨 特性 的 融合 ,操作 类 似 于 
对 输入 进行 多 尺度 多 方向 的 “滤波 "处理, 获取 输入 多 样 性 的 表达 ; 二 是 针对 级 联 后 的 特征 
进行 “深度 ”处 理 , 每 一 隐 层 由 若干 个 带 有 差异 性 的 随机 森林 构成 ,另外 ,每 一 个 随机 森林 中 基 
学 习 器 ( 即 决策 树 ) 的 差异 性 是 通过 子 “ 数 据 ”( 即 第 一 部 分 处 理 完 后 的 特征 ) 的 重 采样 法 获得 ， 
这 一 部 分 主要 为 了 避免 网 络 的 不 稳定 性 或 提升 网 络 的 鲁 棒 性 ,将 第 一 部 分 的 融合 特征 ( 即 第 二 
部 分 的 输入 ) 级 联 到 每 一 隐 层 上 ,直至 最 后 一 个 隐 层 的 输出 ,类 似 若 干 个 “ 弱 分 类 器 ”的 结果 (这 
里 的 弱 分 类 指 随机 森林 ), 最 后 的 输出 为 这 若干 个 结果 进行 平均 .最 大 化 操作 所 对 应 的 指标 。 











































































































注意 : 本 模型 中 使 用 的 类 别 个 数 为 3 











图 6. 10 深度 森林 (多 收益 级 联 森 林 ) 的 整体 结构 


下 面 我 们 就 深度 森林 网 络 所 包含 的 两 个 部 分 ,分 两 节 详 述 其 具体 的 操作 及 特性 。 需 要 
注意 的 是 ,本 节 陈 述 模 型 的 应 用 场景 是 分 类 任务 。 


多 分 辨 特性 融合 


假设 分 类 任务 中 ,类 别 个 数 为 3; 进一步 ,对 输入 xE R ,窗口 大 小 分 别 选择 为 100、200 
和 300, 可 以 类 似 理解 为 三 个 不 同 的 “分 辨 特性 ”; 对 每 一 “分 辨 特性 ”下 ,利用 块 提取 的 处 理 
方式 ,实现 多 样 性 的 描述 或 局 部 注意 。 如 窗口 大 小 为 100 且 间 隔 为 1 时 ,对 输入 进行 块 处 理 
后 可 以 得 到 301 个 子 块 ,每 一 个 子 块 为 100 维 , 即 


x € qu Em Us (ge gym 
同 理 , 对 输入 利用 窗口 大 小 为 200 和 300 也 可 进行 相同 处 理 。 进 一 步 ,对 每 一 分 辨 特性 下 所 
得 到 的 每 一 子 块 ,利用 随机 森林 (由 若干 决策 树 组 成 ) 进 行 处 理 , 其 中 随机 森林 的 输出 与 分 类 
中 类 别 个 数 一 致 ; 如 公式 (6. x 对 输入 x € RO ,共计 有 301 个 子 块 ,每 一 子 块 经 过 随机 


森林 处 理 后 ,得 到 三 维 的 输出 


6.6.1 


(6.69) 


Forest 


x, € R"———ucmR (6. 70) 
,将 输入 所 对 应 的 301 个 块 ,利用 随机 森林 进行 处 理 , 并 将 处 理 后 的 结果 进行 堆栈 级 联 : 


0; € RS ee G, ig) € R” (6.71) 
注意 ,为 了 描述 差异 性 ,这 里 采用 了 两 个 随机 森林 ,并 且 这 两 个 随机 森林 所 对 应 的 基 学 习 器 
( 即 决策 树 ) 是 不 同形 式 的 。 如 图 6. 11 中 ,第 一 部 分 窗口 大 小 为 100 时 所 对 应 的 随机 森林 


Forest A 和 Forest B。 具 体 地 ,该 部 分 图 解 如 下 所 示 。 


那么 
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100 两 个 不 同 基 学 习 
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$ H E BER floes Forest B — E 903 
Li To a Š -dim 

301 

级 联 输出 














图 6.11 窗口 大 小 为 100 时 特性 融合 


注意 关于 这 两 个 随机 森林 的 学 习 , 利 用 有 监督 学 习 方式 进行 . 即 根据 若干 个 输入 及 所 对 
应 的 类 标 实现 随机 森林 中 参数 的 学 习 , 值 得 指出 的 是 每 一 输入 经 过 滑 窗 处 理 后 ,所 得 到 的 
301 个 块 所 对 应 的 类 标 是 一 致 的 。 第 一 部 分 ,依据 窗口 的 个 数 及 随机 森林 的 个 数 ,得 到 多 分 
辨 特性 融合 后 的 特征 为 3618 HE. 
级 联 特征 深度 处 理 


第 二 部 分 的 输入 为 第 一 部 分 的 输出 , 即 te € R7 ,其 中 的 角 标 *c” 为 不 同窗 口 大 小 下 特 
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征 的 级 联 concatenate。 为 了 体现 “深度 ”的 表征 能 力 , 以 及 层级 间 的 差异 性 和 多 样 性 ,这 一 
部 分 的 网 络 模型 设计 如 图 6. 12 所 示 。 
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图 6.12 级 联 特征 深度 处 理 一 一 分 类 任务 


这 里 “深度 ”采用 了 N 层 , 每 一 层 上 采用 了 4 个 随机 森林 ,它们 的 差异 性 主要 由 基 学 习 
器 (决策 树 ) 的 形式 和 个 数 决定 。 另 外 ,为 了 使 得 每 一 层 上 信息 最 大 化 地 保留 ,类 似 残 差 网 络 
中 的 基本 模块 ,这 里 将 级 联 特 征 继续 以 级 联 的 方式 说 入 至 网 络 中 的 每 一 层 ; 注意 这 一 部 分 
整个 网 络 中 的 每 一 个 随机 森林 的 输出 都 与 分 类 任务 所 对 应 的 类 标 一 致 , 即 为 3。 所 以 经 过 
这 N 层 处 理 后 ,得 到 的 特征 维 数 一 直 是 3630 维 ( 即 级 联 特征 的 维 数 3618 与 4 个 随机 森林 
输出 维 数 12 的 和 ); 之 后 在 分 类 器 设计 的 阶段 ,类 似 集成 分 类 器 , 仍 采 用 4 个 随机 森林 ,对 
其 输出 进行 平均 和 最 大 化 的 操作 ,得 到 输入 x E RR” 所 对 应 的 类 标 , 即 
fi = Phoen (fi 0) € R” 
fo =t, E R (6. 72) 
6, = (CA 8; 05 sba) 
其 中 /二 1,2,…,N; BRO, 为 第 ! 层 上 4 ABEDIK RE WE BA RE“ Phos ”代表 第 1 
层 上 随机 森林 、 级 联 特征 嵌入 等 处 理 。 
进一步 ,对 于 分 类 器 设计 , 则 有 
fna = Funia Sn Âr) € R 


" 4 
f= LY funa ER (6. 73) 
i-i 


label(x) = arg max (fi) 
BE" Py a” HE N 十 1 层 上 第 个 随机 森林 的 输出 ,注意 与 操作 “Phores ”的 区 别 。 
值得 注意 的 是 : 整个 网 络 有 没有 非 线 性 操作 呢 ? 有 ,类 似 于 Maxout 网 络 。 另 外 ,小 规 
模 数据 的 差异 性 以 及 层 内 和 层 间 随 机 森林 的 差异 性 .能 否 随 着 层级 的 加 深 , 使 得 对 (复杂 ) 输 
入 的 表征 能 力 进一步 提升 ? 另外 ,对 于 每 一 个 森林 ,其 基 学 习 器 ( 即 决 策 树 ) 的 形式 与 个 数 决 
定 着 随机 森林 的 性 能 以 及 抗 干 扰 水 平 ,可 以 预知 ,个 数 越 少 , 预 训练 时 ,随机 森林 越 难于 收敛 


并 且 性 能 较 差 ; 但 个 数 越 多 ,将 会 影响 整个 网 络 的 计算 消耗 。 当 然 , 该 网 络 的 确 扩 展 了 深度 
学 习 的 思路 ,不 仅仅 是 基于 神经 网 络 的 实现 。 同 时 , 它 的 优点 也 充分 体现 了 “深度 ”结合 机 器 
学 习 中 简单 算法 的 特性 : 简洁 高 效 的 优化 方式 与 模型 表征 能 力 的 提升 。 
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7.1 生成 式 对 抗 网 络 的 基本 原理 


生成 式 对 抗 网 络 ,英文 名 称 为 Generative Adversarial Nets,2014 年 6 月 Ian Goodfellow 等 
学 者 提出 , 它 是 一 种 生成 模型 ,核心 思想 是 从 训练 样本 中 学 习 所 对 应 的 概率 分 布 ,以 期 根据 
概率 分 布 函 数 获取 更 多 的 “生成 ”样本 来 实现 数据 的 扩张 。 另 外 , 它 包 括 两 个 子 网 络 模型 ,一 
个 是 生成 模型 (使 得 生成 的 *“ 伪 ”图 像 尽 可 能 与 “自然 "图像 的 分 布 一 致 ) ,一 个 是 判别 模型 (在 
生成 的 “ 伪 ” 图 像 与 “自然 "图像 之 间作 出 正确 判断 , 即 二 分 类 器 ) ,实现 整个 网 络 训练 的 方法 
便 是 让 这 两 个 网 络 相 互 竞争 ,最 终生 成 模型 通过 学 习 “ 自 然 " 数 据 的 本 质 特性 ,从 而 刻画 出 
“自然 "样本 的 分 布 概 型 ,生成 与 “自然 ”样本 相似 的 新 数据 。 下 面 为 了 进一步 理解 和 分 析 该 
网 络 ,我 们 主要 从 网 络 模型 的 动机 和 数学 物理 描述 两 个 方面 进行 陈述 。 

备注 : 生成 式 对 抗 网 络 与 ”对抗 ”样本 没有 关系 ,对 抗 样本 指 对 数据 进行 统计 处 理 , 如 加 
和 随机 噪声 等 , 得 到 新 数据 ,使 得 模型 对 新 数据 并 不 能 很 好 地 进行 预测 , 当然 Tan 
Goodfellow 很 好 地 解释 了 原因 : 因为 新 数据 噪声 部 分 与 网 络 模型 进行 前 向 计算 后 ( 即 与 权 
值 矩 阵 相 乘 , 与 偏 置 相 加 ) ,其 值 较 大 影响 了 最 后 输出 的 决策 。 


7.1.1 网 络 模型 的 动机 


l. 生物 或 类 脑 机 理 一 一 人 类 行为 


生成 式 对 抗 网 络 的 启发 主要 源 于 博弈 论 中 的 二 人 零 和 博弈 , 即 指 参与 博弈 的 双方 ,在 严 
M 4 F ,一 方 的 收益 必然 意味 着 另 一 方 的 损失 ,博弈 双方 的 收益 和 损失 相 加 总 和 永远 为 
“ 零 ”, 双 方 不 存在 合作 。 对 于 非 合作 、 纯 竞争 型 博弈 ,例如 两 个 人 打 乒 乓 球 , 一 个 人 赢 则 意味 
着 另 一 人 输 ; 抽象 后 的 博弈 问题 为 : 已 知 参 与 者 集合 (双方 ) ,策略 集合 (乒乓 球技 术 水 平 ) 
MAREE GEH) ,能 否 找 到 一 个 理论 上 的 平衡 点 , 即 对 参与 双方 来 说 都 最 合理 、 最 优 的 具 
体 策 略 ? 冯 “。 诺 依 曼 已 经 从 数学 上 证 明 , 对 二 人 零 和 博弈 问题 ,可 以 通过 一 定 的 线性 运算 操 
作 ( 即 竞争 双方 以 概率 分 布 的 形式 随机 使 用 某 类 最 优 策 略 中 的 各 个 策略 ) ,找到 一 个 最 小 最 
大 的 平衡 点 ,这 个 著名 的 最 小 最 大 定理 的 思想 是 抱 最 好 的 希望 ,做 最 坏 的 打算 。 

对 于 拓扑 结构 不 完整 的 场景 ,生物 视觉 皮层 ( 腹 侧 视觉 通路 ) 对 其 的 识别 随 着 层级 ( 即 从 
外 侧 膝 状 体 , 到 初级 视觉 皮层 ,再 到 中 级 视觉 皮层 ,最 后 到 枉 叶 皮层 和 决策 层 等 ) 的 不 断 抽象 
而 呈现 “盲区 ”, 即 无 法 判断 场景 是 什么 ,基于 此 构建 的 深度 神经 网 络 模型 难以 实现 (输入 或 
场景 的 ) 拒 识 。 近 几 年 ,关于 大 脑 和 生物 视觉 皮层 的 最 新 研究 发 现 , 当 每 一 层级 获取 关于 场 
景 的 拓扑 结构 信息 后 ,对 该 信息 具有 修正 或 ( 先 验 ) 匹 对 等 生物 学 功能 的 皮层 区 ( 记 为 
Recovery Functional Area) 可 以 进一步 修复 或 完善 该 (拓扑 结构 不 完整 的 ) 场 景 的 拓扑 对 应 
性 。 若 场景 拓扑 结构 完整 , 则 不 断 增强 Recovery Functional Area 的 记忆 存储 ,并 对 腹 侧 视 
觉 通 路 进行 Positive 刺激 ; 若 场 景 拓扑 结构 不 完整 , 则 弱化 腹 侧 视觉 通路 并 给 出 Negative 
刺激 ,同时 利用 Recovery Functional Area 对 其 ( 即 腹 侧 视觉 通路 获取 的 层级 信息 ) 进 行 完 
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中 善 ,如 图 7.1 所 示 。 
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图 7.1 腹 侧 视觉 通路 与 恢复 功能 区 零 和 博弈 














注意 符号 RFA, 即 恢复 功能 区 ; 可 以 认为 * 显 ”网 络 为 腹 侧 视觉 通路 ,“ 隐 ”网 络 为 相对 
应 层 上 的 恢复 功能 区 ,这 两 条 网 络 相互 博弈 ( 即 输入 拓扑 结构 完整 时 ,所 有 皮层 上 对 应 恢复 
功能 区 上 为 Positive 刺激 ; 如 输入 为 不 完整 的 拓扑 结构 , 则 对 应 Negative 刺激 ), 对 输入 场 
景 实现 高 性 能 的 类 别 决策 。 


2. 数据 扩张 


众所周知 ,深度 学 习 的 主要 驱动 力 为 可 利用 的 数据 量 ( 即 输入 与 输出 ) ,数据 量 越 充 分 ， 
训练 得 到 的 模型 泛 化 能 力 (测试 性 能 ) 越 好 。 但 在 实际 应 用 中 , 带 有 标记 的 数据 很 少 , 且 代价 
昂贵 ; 除了 常用 的 统计 扩张 数据 方式 (例如 裁剪 、 滑 块 和 旋转 角度 、 多 分 辩 非 下 采样 处 理 、 加 
和 人 服从 不 同 分 布下 的 随机 噪声 等 ,本 质 上 ,得 到 的 样本 可 视 为 对 抗 样本 且 以 多 分 辩 特 性 、 容 
许 旋转 不 变性 和 和 鲁 棒 性 等 融入 至 模型 内 ,但 模型 的 预测 (外 插 ) 能 力 受 限于 这 种 扩充 方式 ) 
外 ,生成 式 对 抗 网 络 也 可 以 无 监督 学 习 的 方式 实现 数据 的 扩张 ,如 图 7.2 所 示 。 





自然 数据 


随机 噪声 














图 7.2 基于 生成 式 对 抗 网 络 的 数据 扩张 


当 生 成 模型 与 判别 模型 交 蔡 优化 学 习 , 最 终 达 到 零 和 博弈 (纳什 均衡 ) 时 ,注意 生成 模型 
的 性 能 ( 即 伪造 (生成 ) 数 据 的 拓扑 (几何 结构 特性 ) 取 决 于 训练 (自然 ) 数 据 的 量 , 实 际 应 用 
中 , 若 生成 模型 的 参数 远 小 于 训练 数据 的 量 , 则 可 以 有 效 地 内 化 数据 的 分 布 特性 ,从 而 使 得 
生成 的 数据 “接近 ?这些 自 然 数据 。 另 外 网 络 中 两 个 模型 的 设计 和 交 蔡 优化 算法 的 设置 也 十 
分 重要 ,注意 生成 式 对 抗 网 络 的 主要 目的 是 优化 生成 模型 ,但 判别 模型 在 这 里 所 起 到 的 作用 





是 教导 生成 模型 如 何 调整 以 期 得 到 的 生成 数据 更 加 接近 于 自然 数据 ,防止 反复 训练 过 程 呈 
发 散 的 状态 。 


7.1.2 网 络 模型 的 数学 物理 描述 
下 面 基于 图 7. 2 给 出 生成 式 对 抗 网 络 的 数学 原理 及 物理 解释 ,首先 ,符号 描述 为 : 随机 


噪声 ze R”" ,自然 数据 xe R ,生成 数据 为 XE Rs 由 于 判别 模型 为 二 分 类 器 ,所 以 y € [0,1]。 
接 下 来 ,从 以 下 四 个 方面 详 述 : 


1. 数据 


Ce cg? FE C.) 
对 于 第 :个 数据 对 (x*” «21? ) ,所 对 应 的 输出 y” 为 [1,0], 表 示 将 自然 数据 判断 为 真 的 概率 
为 1, 将 生成 数据 判断 为 真 的 概率 为 0; 或 [0,1] 表 示 将 自然 数据 判断 为 伪 的 概率 为 0, 将 生 
成 数据 判断 为 伪 的 概率 为 1。 通常 ,深度 学 习 平台 Tensorflow 采用 的 第 一 种 取 法 。 需 要 注 
意 噪声 数据 的 量 不 一 定 与 自然 数据 的 量 一 致 ,这 里 为 了 方便 设置 为 一 致 。 


2. 模型 


G:x = g(z.0)€R 
X = D'(x,0) 





X = DF) (7, 2) 

P(L(x) = real | 24 

. Jer 
P(L(x) = real | X.0°) 

其 中 的 G 表示 Generator, 即 生成 模型 或 称 生成 器 , 待 优 化 参数 为 严 , 需 进一步 量化 非 
线性 映射 函数 g(。); 另外 D 表示 Discriminator, 即 判别 模型 或 判别 器 ,分 为 两 个 阶段 ,一 
个 是 特征 学 习 , 待 优化 的 参数 为 0 , 另 一 个 是 分 类 器 设计 , 待 优 化 的 参数 为 FF; 同样 需 量化 
映射 DECOM P(。) 这 两 个 过 程 。 值 得 注意 的 是 : 数据 量 要 远大 于 生成 模型 的 参数 量 , 即 
T2» Num(QP) , 才 可 以 保证 网 络 得 到 零 和 博弈 解 ,另外 工 (x) 为 输入 关 所 对 应 的 真 伪 性 。 


3. 优化 目标 函数 


通常 ,也 可 以 将 模型 (7.2) 中 的 判别 模型 部 分 写 为 : 
- Ge] | D(x) Je R (7.3) 
D(x) D(G(z)) 
其 中 DCzE[0,1] 将 x* 判 断 为 真 样本 ( 即 自然 数据 ) 的 概率 。 在 固定 生成 模型 时 所 对 应 判别 
器 的 损失 函数 为 : 


pl Y dlogCDGe. 9) + 93 log’ = Ds» 


Feature Learning: 
" | 


Classifier Design: y = | 


(7.4) 


zx~P(z) x—PRGD 


P = (FF) 
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这 里 x~P(x) 为 服从 自然 数据 分 布 P(x) 下 的 采样 , 即 式 (7.1) 中 的 自然 数据 集 ,对 应 着 
一 P(x) 为 服从 生成 分 布 概 型 P(X) 下 的 采样 , 即 式 (7.1) 中 的 生成 数据 集 。 公 式 (7.4) 中 
一 log(D(x)) 的 物理 解释 为 将 x 判断 为 真 (自然 数据 ) 的 不 确定 性 越 小 越 好 (不 确定 性 越 小 
则 意味 着 确定 性 越 高 ) ,其 最 佳 状态 为 0, 即 DGO =1; 另外 log(1 一 D(X)) 的 物理 解释 为 将 x 
判断 为 伪 ( 生 成 数据 ) 的 不 确定 性 越 小 越 好 , 即 (1 一 D(x)) 为 将 x 判断 为 伪 的 概率 要 越 大 越 
好 ,此 意味 着 D(X) 为 将 x 判断 为 真 的 概率 越 小 越 好 ; 将 所 有 采样 样本 的 不 确定 性 (也 称 信息 
量 ) 进 行 求 和 , 便 得 到 炉 的 概念 。 简 言 之 ,判别 模型 的 设计 要 求 为 : 将 自然 数据 判断 为 真 的 
概率 要 高 ,将 生成 数据 判断 为 伪 的 概率 要 高 。 

另外 ,对 生成 模型 的 要 求 是 : 在 判别 模型 的 固定 时 ,生成 数据 的 分 布 特性 尽 最 大 可 能 与 
自然 数据 的 一 致 , 即 在 P(X) 尽 可 能 与 P(x) 一 致 的 情形 下 ,最 大 化 如 下 目标 函数 : 


max >) log(DG) = >) log(D(x)) (7.5) 
对 应 着 ,将 x 二 GCz) 代 入 便 有 : ” id 
max >} log DG(G^40))) 8X. qt pig) pio» (7.6) 
即 在 z~P(z) 的 条 件 下 ,所 有 关于 z 的 log(D(G(z))) 的 和 越 大 ,意味 着 : 
(D(G(z)) ~ PG) 一 = (GG) x) 一 =- (D(G(z)) ~ P(x)) (0.7) 


生成 数据 与 自然 数据 之 间 的 差距 4(G(z) ,x) 越 小 , 即 最 为 理想 的 状态 是 : 关于 所 有 的 z, 若 
都 有 log(D(G(z))) 王 0, 则 意味 着 D(G(z)) 二 1, 即 将 生成 数据 判别 为 自然 数据 (注意 这 是 在 
生成 模型 阶段 的 要 求 ), 即 D(G(z)) 服 从 于 自然 数据 的 分 布 概 型 P(X) ,最终 达到 这 两 个 分 
布 概 型 4(P(X) ,P(x)) 尽 可 能 接近 。 

最 后 ,依据 式 (7.1) 中 的 数据 ,结合 式 (7.4) 的 损失 函数 ,得 到 基于 判别 模型 的 优化 目标 
函数 为 : 


二 
Soc? a = real) * log(D(x )) + 


min] (OP) = -4 7 (7.8) 
Mow” (2) = fake) log. — D(x )) 
ped 
通常 由 于 自然 数据 与 生成 数据 分 别 对 应 着 真 伪 类 标 , 所 以 式 子 中 蕴含: 
ly”? (1) = real) = 1 
(7.9) 


àCy? (2) = fake) = 1 
其 中 6(，) 为 狄 利克 雷 函数 。 
在 优化 目标 公式 (7. 8) 的 基础 上 .然后 融入 生成 模型 的 要 求 ,得 到 最 后 优化 目标 函数 : 


T 
log(D(x® .02)) + 
1 


t 


min min] (P ,65 ) = 1 一 (7.10) 
P Ff 


1 
T 


M- 


log(1 一 DCG(z 09) ,02)) 


t 


1 





max >) log(D(G(z.))) = min X) log(1 — D(G(z,0))) (7.11) 


2~P() £ PR 


4. 求解 


FA FB BEF Bee Dr US ETT SB OP ,02 ) 交 蔡 优 化 ,与 之 前 第 4 章 深度 堆栈 网 络 中 深度 置信 
网 络 的 求解 类 似 , 这 里 不 再 缆 述 。 


7.2 深度 卷 积 对 抗 生 成 网 络 


本 节 我 们 将 给 出 基于 生成 式 对 抗 网 络 框架 的 一 种 经 典 模型 , 即 深度 卷 积 神经 网 络 架构 
下 的 生成 式 对 抗 网 络 ,并 分 析 该 模型 在 实践 过 程 中 ,关于 数据 ` 优 化 算法 和 参数 设置 等 带 来 
的 优 缺 点 ,以 及 所 出 现 现象 的 物理 解释 。 另 外 ,给 出 该 模型 下 的 典型 应 用 描述 。 


7.2.1 网 络 模型 的 基本 结构 


生成 式 对 抗 网 络 是 一 个 整体 的 框架 ,其 中 生成 模型 和 判别 模型 的 设计 可 以 采纳 各 种 深 
度 神经 网 络 ,与 传统 的 深度 学 习 只 包含 一 个 网 络 ( 端 到 端 设 计 , 反 向 传播 计算 参数 更 新 ) 相 
比 , 生 成 式 对抗 网 络 包 含 两 个 网 络 ,类 似 对 偶 学 习 ( 例 如 翻译 系统 ,如 A 讲 中 文 ,B 讲 英文 ， 
当 A 说 了 一 段 中文 后 ,翻译 系统 将 其 翻译 为 英文 ,B 根据 自己 的 经 验 与 知识 对 翻译 的 内 容 
做 修正 .语法 更 改 ,并 反馈 给 翻译 系统 ,使 得 系统 得 到 学 习 ; 进一步 根据 B 修正 的 英文 ,翻译 
系统 再 将 其 翻译 为 中 文 ,然后 A 根据 之 前 的 这 段 话 ,以 及 自己 的 经 验 与 知识 ,对 翻译 的 中 文 
做 进一步 的 修正 ,如 此 交替 学 习 , 直 至 系统 稳定 ,注意 对 偶 学 习 不 同 于 之 前 的 自 编码 网 络 )， 
进行 交替 优化 ,达到 零 和 博弈 的 状态 。 

下 面 首先 给 出 深度 卷 积 对 抗 生 成 网 络 的 结构 ,如 图 7. 3 所 示 ,注意 该 网 络 的 优化 学 习 范 



































式 为 无 监督 学 习 。 
输入 真 伪 二 分 类 器 
某 分 布下 的 噪声 
生成 模型 “ 转 置 卷 积 神经 网 络 i 
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o |“ 判别 模型 卷 积 神经 网 络 





























图 7.3 深度 卷 积 对 抗 生 成 网 络 的 结构 


图 7. 3 中 的 生成 模型 与 判别 模型 可 以 采纳 传统 卷 积 神经 网 络 的 架构 ,下 面 通过 例子 来 
说 明生 成 模型 和 判别 模型 。 
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1, 生成 模型 
深度 卷 积 对 抗 生 成 网 络 一 一 生成 式 对 抗 网 络 的 结构 如 图 7.4 所 示 。 








— Transposed Conv i [amea | 
输入 并 变形 Transposed Conv. Transposed Cony 输出 生成 图 像 


Transposed Conv 











图 7.4 深度 卷 积 对 抗 生 成 网 络 一 一 生成 式 对 抗 网 络 的 结构 


假设 模型 的 输入 噪声 为 服从 均匀 分 布下 的 随机 采样 , 即 
z € Rl ~ P(z) €7.12) 

如 何 从 输入 (噪声 ) 利 用 卷 积 神经 网 络 得 到 输出 ( 即 生成 图 像 ,其 尺寸 与 自然 图 像 的 尺寸 
— 80? 注意 ,这 里 所 使 用 的 转 置 卷 积 神经 网 络 ( 为 了 保证 整个 网 络 模型 的 稳定 性 ) 与 之 
前 传统 的 卷 积 神经 网 络 有 所 不 同 ,例如 生成 模型 中 的 池 化 操作 被 转 置 ( 也 称 微 步 ) 卷 积 层 
所 替代 。 

注意 ,生成 模型 中 使 用 的 转 置 卷 积 层 操作 ,其 中 转 置 卷 积 也 称 微 步 卷 积 , 它 可 以 视 为 传 
统 卷 积 操作 的 一 种 “逆向 ”传递 过 程 。 通 常 , 转 置 卷 积 受 * 正 向 ” 卷 积 的 参数 约束 , 即 步 长 
Stride 和 填充 方式 (Zero-Padding 和 Full Padding)。 这 里 仅 给 出 两 个 小 例子 简要 说 明 转 置 
卷 积 与 卷 积 的 关系 。 更 多 的 例子 请 参考 : http://deeplearning. net/software/theano _ 
versions/dev/tutorial/conv arithmetic. html # transposed-convolution-arithmetic. 

1) 无 填充 , 步 长 不 为 1 

无 填充 , 步 长 不 为 1 的 情况 下 , 卷 积 与 转 置 卷 积 的 关系 如 图 7.5 所 示 。 


Stride=2 Padding=0 





图 7.5 卷 积 与 转 置 卷 积 的 关系 (无 填充 , 步 长 不 为 1) 





gx 深度 生成 网络 《0 (m 


首先 ,对 于 卷 积 操作 而 言 , 输 入 为 xE R* ,上 且 步 长 Stride 为 2, 填 充 padding 为 0; 滤波 
器 w 的 尺寸 大 小 为 3X3, 即 kernel 的 尺寸 为 3, 那 么 输出 可 以 通过 如 下 的 公式 计算 : 


Input — kernel + 2 + padding 
| Se dc Jua (7.13) 


可 知 输出 为 ?一 ConvCx,w, valid) € R^? FEL + | 为 向 下 取 整 。 
其 次 ,对 于 转 置 卷 积 而 言 , 它 能 够 回答 如 何 由 yE R77 168] x € RS BIA TA" my” 
程 ,这 里 先 需 要 计算 新 的 步 长 与 填充 参数 ,利用 公式 有 : 








Output 


Stride" = 1 
| (7.14) 
padding” = kernel — 1 
注意 此 时 的 输入 为 yE R**? , 即 新 的 输入 尺寸 , 则 新 的 输出 尺寸 计算 如 下 : 
(7.15) 


Es = Stride * (Input? — 1) + kernel? 


kernel” = kernel 
可 以 得 到 x€ RS, 
备注 : 式 (7. 14) 和 式 (7.15) 仅 限于 无 填充 且 步 长 不 为 1 的 情形 ,但 式 (7. 13) 适 用 于 所 
有 “ 正 向 ” 卷 积 , 即 传统 卷 积 神经 网 络 中 的 操作 。 
2) 有 填充 , 步 长 不 为 1 
有 填充 , 步 长 不 为 1 的 情况 下 的 卷 积 与 转 置 卷 积 的 关系 如 图 7.6 所 示 。 


转 置 卷 积 




















Stride=2 Zero Padding=1 


图 7.6 卷 积 与 转 置 卷 积 的 关系 (有 填充 , 步 长 不 为 1) 


同样 ,对 于 卷 积 操作 而 言 ,输入 为 x€E R*”, 步 长 为 2, 零 式 填充 为 1, 即 左 侧 框 中 ,输入 
外 围 的 一 圈 “ 虚 线 框 ”, 即 每 一 个 表示 零 元 ; 那么 根据 式 (7.13) 可 以 计算 得 到 输出 : 
y = Conv(x,w,'valid') € R” (7.16) 
其 中 这 里 的 滤波 器 大 小 为 3X3。 
如 何 “ 逆 向 ”上 述 的 卷 积 操作 过 程 ” 先 需要 通过 如 下 的 公式 计算 新 的 步 长 和 零 式 填充 
参数 。 
备注 : 注意 “逆向 ”过 程 中 的 输入 为 y€ RS. 
Sirid = 
| (7.17) 


(New) 


padding — kernel — padding — 1 
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所 以 得 到 新 的 步 长 和 零 式 填充 参数 分 别 为 1 和 1, 所 以 右 侧 框 中 的 输入 外 围 有 一 圈 虚 线 框 ， 
并 且 * 微 步 ?的 含义 是 指 : 新 的 步 长 为 1, 而 之 前 的 步 长 为 2, 使 得 转 置 卷 积 的 滑 窗 处 理 相 比 
较 卷 积 的 “小 ”。 另 外 ,根据 如 下 的 公式 计算 新 的 输出 的 尺寸 为 : 


Output” = Stride - Input” — 1) + kernel” — 2 + padding 
| (7.18) 
kernel” = kernel 


可 以 得 到 xERs”“s 。 
2. 判别 模型 
判别 模型 的 网 络 架构 如 图 7.7 所 示 。 
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图 7.7 判别 模型 的 网 络 架构 


判别 模型 的 输入 为 自然 数据 集 ,以 及 生成 模型 的 输出 (生成 数据 ) ,输出 所 对 应 的 类 标 即 
为 真 (自然 数据 为 1) 伪 (生成 数据 为 0); 其 中 该 模型 可 以 使 用 传统 的 卷 积 神经 网 络 如 
LeNet、AlexNet、GoogleNet、VGGNet 等 经 典 的 网 络 模型 ,不 过 需要 注意 的 是 : 一 是 真 伪 二 
分 类 器 仍 可 沿用 Softmax 分 类 器 ( 即 退 化 为 Logistic 分 类 器 ) ,也 可 以 使 用 非 线 性 分 类 器 ( 非 
线性 函数 为 Tanh 或 Sigmoid KRO; 二 是 该 模型 中 所 有 的 池 化 层 被 卷 积 (融和 人 步 长 ) 操 作 所 
替代 ; 三 是 除 真 伪 二 分 类 器 这 一 层 外 ,所 有 隐 层 使 用 的 非 线性 函数 为 修正 线性 单元 (ReLU) 
的 改进 版 Leaky ReLU。 

备注 : 判别 模型 中 的 卷 积 流 , 卷 积 \ 池 化 、 非 线性 和 批量 归 一 化 (或 局 部 响应 归 一 化 ) , 除 
了 池 化 层 被 带 有 步 长 的 卷 积 操 作 所 “吞噬 ?外 ,其 他 操作 (包括 特征 图 向 量化 的 过 程 , 即 全 连 
接 层 设 计 ) 与 之 前 一 样 。 深 度 卷 积 对 抗 网 络 模型 更 为 详细 的 应 用 与 深度 学 习 平台 的 实现 
(Torch 和 Tensorflow) 请 参考 : https://github. com/Newmu/dcgan code. 


7.2.2 网 络 模型 的 性 能 分 析 


深度 卷 积 生 成 对 抗 网 络 ,在 具体 的 理论 分 析 和 应 用 (如 分 类 或 回归 任务 、 超 分 辨 等 ) 中 具 
有 如 下 的 特点 。 





1. 理论 分 析 


众所周知 ,经 典 的 生成 式 对 抗 网 络 GAN 有 着 严格 的 系统 理论 分 析 与 收敛 性 证 明 , 即 假 
设 生成 模型 和 判别 模型 都 有 足够 的 性 能 的 条 件 下 ,如 果 在 迭代 过 程 中 的 每 一 步 ,判别 模型 都 
可 以 达到 当下 在 给 定 生成 模型 时 的 最 优 值 , 并 在 这 之 后 青 更 新 生成 模型 ,那么 最 终生 成 数据 
的 概率 分 布 函数 就 一 定 会 收 合 于 自然 数据 的 概率 分 布 函 数 。Ian Goodfellow 等 人 最 初 假设 
判别 模型 具有 无 限 区 分 能 力 , 即 不 论 生成 数据 以 任意 小 的 误差 或 准则 接近 自然 数据 ,判别 模 
型 均 可 有 效 地 识别 。 可 问题 是 : 若 生成 数据 的 分 布 函数 与 自然 数据 的 分 布 函数 接近 ,但 其 
支撑 集 互 不 相交 或 重 琶 (特别 当 这 两 个 分 布 函 数 是 低 维 流 型 的 时 候 , 容 易 发 生 ) , 则 生成 模型 
所 对 应 的 优化 目标 函数 ( 即 詹 森 香 农 散 度 , 它 给 出 了 生成 数据 与 自然 数据 所 对 应 分 布 函数 之 
间 的 差异 性 ) 关 于 参数 的 偏 导数 退化 为 一 常数 ,从 而 导致 梯度 消失 ,发 生 梯 度 弥 散 现象 , 换 言 
之 判别 模型 越 好 ,生成 模型 的 梯度 消失 越 严 重 。 

为 了 有 效 地 解决 这 一 问题 ,目前 从 理论 分 析 上 ,学 者 提出 了 两 个 思路 ,一 种 是 修正 生成 
模型 的 优化 目标 函数 , 即 利用 沃 瑟 斯 坦 距离 衡量 生成 数据 与 自然 数据 所 对 应 分 布 函 数 之 间 
的 差异 性 , 蔡 代 传 统 的 集 森 香农 散 度 ,通过 最 优 传输 定理 , 即 生成 数据 的 分 布 概 型 与 自然 数 
据 的 分 布 概 型 之 间 存在 一 个 唯一 的 映射 , 记 为 Wasserstein-GAN。 另 一 种 是 关于 判别 器 具 
有 无 限 可 分 性 的 假设 ,修正 为 自然 数据 的 概率 分 布 特 性 具有 Lipschitz 连续 且 ( 有 限 阶 ) 可 微 
性 ,从 而 优化 目标 函数 变 为 : 在 生成 数据 的 分 布 函数 与 自然 数据 的 分 布 函 数 尽 可 能 一 致 的 
条 件 下 (利用 二 者 差 的 期 望 来 衡量 一 致 性 ) ,优化 判别 器 带 有 有 限 阶 Lipschitz 概 型 约束 的 可 
分 能 力 , 记 为 损失 敏感 度 生成 式 对 抗 网 络 Loss-Sensitive GAN, 本 质 上 , 它 与 Wasserstein- 
GAN 具有 一 定 的 相似 性 。 


2. 应 用 实践 


目前 ,对 于 分 类 任务 ,深度 神经 网 络 的 范式 主流 为 半 监 督学 习 , 即 利用 无 类 标 数 据 进 行 
参数 初始 化 ,有 类 标 数据 进行 网 络 的 精 调 。 

基于 生成 式 对 抗 网 络 分 类 任务 的 应 用 主要 包含 两 方面 的 贡献 : 一 是 利用 生成 模型 进行 
数据 扩充 或 利用 少数 有 类 标 数 据 对 扩充 后 的 数据 进行 “类 标 传递 ”; 二 是 利用 判别 模型 可 进 
行 共享 计算 或 特征 学 习 阶 段 的 参数 初始 化 ; 注意 这 里 的 参数 初始 化 与 之 前 基于 自 编码 网 络 
的 逐 层 学 习 机 制 有 所 不 同 , 它 是 整个 (判别 模型 中 的 特征 学 习 ) 阶 段 的 参数 初始 化 。 

当然 ,生成 式 对 抗 网 络 也 并 不 完美 ,首先 ,优化 过 程 存在 不 稳定 性 ,很 容易 陷入 到 一 个 鞍 
点 或 局 部 极 值 点 上 ; 其 次 ,模型 的 可 解释 性 比较 差 ; 再 次 ,需要 提高 生成 式 对 抗 网 络 模型 的 
延展 性 ,尤其 在 处 理 大 规模 数据 的 时 候 。 相 应 的 分 析 及 策略 如 下 : 由 于 生成 模型 的 输入 为 
随机 噪声 ,将 会 对 深度 卷 积 对 抗 网 络 的 收敛 产生 较 大 的 震荡 ,避免 随机 噪声 的 影响 ,实际 中 ， 
常 将 生成 模型 的 输入 更 改 为 自然 数据 的 编码 系数 (如 利用 自 编码 网 络 , 对 输入 (自然 数据 ) 进 
行 编码 后 的 编码 系数 ) ,这 样 一 方面 可 以 增加 生成 网 络 模型 的 拓扑 (几何 ?结构 对 应 性 , 另 一 
方面 可 以 提升 整体 网 络 的 稳定 性 。 另 外 模型 的 设计 通常 需要 自然 数据 的 个 数 要 远大 于 生成 
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图 7.8 分 类 任务 下 生成 式 对 抗 网 络 的 应 用 一 一 数据 扩充 与 共享 计算 


模型 的 参数 量 , 以 期 保证 生成 数据 的 质量 。 
备注 : 关于 生成 式 对 抗 网 络 的 更 多 训练 技巧 将 在 第 11 章 深度 学 习 软 件 仿真 平台 及 开 
发 环境 中 的 Tensorflow 平台 中 给 出 。 


7.2.3 网络 模型 的 典型 应 用 


对 抗 式 生 成 网 络 已 经 在 图 像 分 类 检测、 分 割 .高 分 辩 率 图 像 生成 等 诸多 领域 取得 了 突 
破 性 的 成 绩 。 但 是 它 也 存在 一 些 问 题 ,首先 , 它 与 传统 的 机 器 学 习 和 深度 学 习 方 法 一 样 , 通 
常 ,假设 训练 数据 与 测试 数据 服从 同样 的 分 布 ,或 者 是 在 训练 数据 上 的 预测 结果 与 在 测试 数 
据 上 的 预测 结果 服从 同样 的 分 布 。 而 实际 上 这 两 者 存在 一 定 的 偏差 ,例如 在 测试 数据 上 的 
预测 准确 率 就 通常 比 在 训练 数据 上 的 要 低 , 这 就 是 过 度 拟 合 的 问题 。 下 面 详细 地 陈述 深度 
卷 积 生成 对 抗 网 络 在 分 类 任务 , 超 分 辨 任务 和 分 割 任务 上 的 应 用 以 及 对 这 一 问题 所 做 出 的 
改进 。 


1. 分 类 任务 


基于 图 7. 8 ,深度 卷 积 生 成 对 抗 网 络 在 无 监督 学 习 参 数 初 始 化 阶段 扮演 着 重要 的 角色 。 
D 数据 (分 类 任务 的 数据 集 ,包括 训练 集 和 测试 集 ) 


{x,t ) Nu, —> TrainData 
(7.19) 


(x? js —> TestData 


这 里 1”E RF 为 期 望 输出 ,其 类 别 个 数 为 Ks 除了 分 类 任务 的 数据 集 外 ,深度 卷 积 生成 对 搞 
网 络 的 数据 集 为 : 





(x99, 209), y oL, (7. 20) 
注意 这 里 的 x^? 为 自然 数据 (或 图 像 ) , 它 可 以 是 分 类 任务 中 的 训练 数据 或 测试 数据 ,也 可 以 
是 二 者 的 结合 ; 不 过 这 里 使 用 的 是 训练 数据 ; z” 为 服从 某 分 布 概 型 (例如 归 一 化 高 斯 分 布 、 
均匀 分 布 等 ) 下 噪声 的 随机 采样 ; 另外 y? 29 S AQ ,z” ) 的 真 伪 性 判别 向 量 , 若 为 真 ( 自 
然 数据 为 输入 ) ,判别 模型 的 输出 为 1; 若 为 伪 ,噪声 数据 通过 生成 模型 获取 的 生成 数据 ,再 
通过 判别 模型 的 输出 为 0。 
2) 模型 
与 数据 相对 应 ,模型 的 设计 也 分 为 两 个 阶段 : 一 是 分 类 任务 一 一 深度 卷 积 神经 网 络 : 
X, = ConvNet(x,0) 
= FC(X ,0) (7.21) 
= Softmax(X,,K,F) 
待 优化 的 参数 分 为 三 个 部 分 (0 , 严 , 依 ), 对 于 精 调 阶 段 ,可 以 端 到 端 方式 进行 训练 。 注 意 这 
里 Xi 是 通过 卷 积 网 络 获取 得 到 的 特征 图 或 特征 向 量 , 该 卷 积 网 络 的 设计 与 下 面 深 度 卷 积 
生成 对 抗 网 络 中 判别 模型 (除去 真 伪 二 分 类 器 部 分 ) 是 一 致 的 。Xs* 是 添加 的 全 连接 层 , 通 过 
增加 “ 层 数 ”来 提升 网 络 模型 的 泛 化 性 能 ,车 不 添加 , 则 X. = Xs 最 后 利用 Softmax 分 类 器 
实现 输入 数据 (图 像 ) 所 对 应 特征 的 分 类 任务 。 
二 是 参数 初始 化 一 一 深度 卷 积 对 抗 神经 网 络 : 
G:x = g(z,F) 
X; = ConvNet(x.0! ) 





X, = ConvNet(x,0') (7. 22) 

P(L(x) = real | X,.0°) 
E Mns = real | X, £) 
FE L G0 29i A x 所 对 应 的 真 伪 , 这 里 的 G 为 生成 模型 ,D 为 判别 模型 。 

备注 : 这 两 个 部 分 共享 的 是 卷 积 网 络 ( 即 式 (7. 21) 和 式 (7. 22) 中 关于 Xi 的 定义 ) 。 

3) 优化 目标 函数 

根据 模型 的 描述 ,优化 目标 函数 的 设计 同样 分 为 两 个 阶段 .首先 是 参数 初始 化 阶段 ,为 
方便 下 面 公式 描述 ,对 于 判别 器 记 为 : 

D(x.0°) = P(L(x) = real | ConvNet(x.0') (6) (7. 23) 

Hop o? = (0 06) ,进一步 优化 目标 函数 : 


D: 


2 


N 

> log(Dix™ ,09)) + 
min min] (8,65) = 1— L| "7 (7.24) 
P F 六 | & 

log — DIG ,02),02)) 


n=1 


其 次 , 精 调 阶段 的 优化 目标 函数 为 : 
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Q CD guess. pesn 
6A 148 20 
Ney 
a min] (9 , P) = Sd loss? 9) +2 + RO 09) (7. 28) 
Hop £o Jg si A A aR SEE BUMP ES I8] Zt aC 09 52 c EROS 26 SCREEN 5 Ph 
RO ,0 ,0 ) 为 ( 权 值 矩阵 ) 参 数 的 正则 化 约束 ,常用 基于 能 量 的 | 外 e 1; 或 上 。 We 等 
4) 求解 
关于 优化 目标 函数 (7. 24) ,本 章 前 边 已 陈述 ,假设 求 得 的 参数 记 为 : 
(0*6,0*P) = (0*9,(0*!,0*0)) (7. 26) 


根据 生成 模型 的 要 求 , 生 成 数据 的 分 布 概 型 Pe 与 训练 数据 集 的 分 布 概 型 Psuu 尽 可 能 是 一 
致 的 (注意 , 若 深度 卷 积 生成 对 抗 网 络 的 输入 ( 指 自然 数据 ) 不 为 分 类 任务 中 的 训练 数据 , 则 
难以 实现 训练 数据 集 的 扩充 与 * 伪 类 标 ” 传 递 ), 即 


d(Pg Pas) «€ 
| (7. 27) 


data = (xt? } 
其 中 da(，) 为 衡量 两 个 分 布 概 型 之 间 的 差异 性 ,如 KL USE OC SS 0H E gal] ii 
明 差异 性 越 小 ; 接 下 来 ,可 以 利用 如 下 的 公式 对 分 类 任务 中 的 训练 数据 集 进行 扩充 : 
X = g(z,0°°) ~ Pe (7.28) 

如 何 做 伪 类 标 传递 呢 ? 可 以 将 训练 数据 集 按 照 K 个 类 别 分 为 K 个 子 数据 集 , 对 每 一 个 子 
数据 集 进行 深度 卷 积 生成 对 抗 网 络 的 优化 学 习 , 得 到 每 一 类 子 数据 集 的 分 布 概 型 ,如 POP (e 
1,2, K) ,同样 利用 式 (7. 28) 来 扩充 这 一 类 的 数据 ,最 终 实 现 整 个 训练 数据 集 的 扩充 。 假 
设 扩充 后 的 训练 数据 集 记 为 ， 

(xf (xe p jE, (7.29) 
其 中 SSNs; 接 下 来 ， 关于 优化 目标 丙 数 (7. 25) ,利用 该 数据 集 , 并 通过 共享 计算 的 形式 ， 
将 参数 初始 化 得 到 的 07 赋 给 深度 神经 网 络 模型 (7. 21) 中 的 0 (注意 与 之 前 的 逐 层 学 习 策 
略 不 一 样 ,这 里 是 “特征 ?学 习 阶段 的 初始 化 ) ,另外 目标 函数 中 的 个 数 N,, 改 为 S。 求 解 过 程 
与 第 4 章 深度 卷 积 神经 网 络 中 描述 的 一 致 , 这 里 不 再 歼 述 。 


2. BARES 


超 分 辨 任务 的 核心 是 在 寻找 低 分 辨 图像 (高 分 辩 图 像 的 某 种 退化 操作 所 得 到 的 ) 与 高 分 
辨 图 像 之 间 的 关系 ,期 望 利用 量化 后 的 关系 将 低 分 辨 图 像 通过 恢复 生动 纹理 和 颗粒 细节 等 
以 达到 高 分 辨 图 像 的 过 程 ,如 图 7.9 所 示 。 

与 稀 琉 编码 和 传统 深度 神经 网 络 方法 (寻求 在 某 一 特征 空间 上 , 低 分 辩 与 高 分 辨 图 像 所 
蕴含 的 特性 是 一 致 的 ) 不 同 的 是 : 深度 卷 积 对 抗 生 成 网 络 ( 这 里 生成 模型 与 判别 模型 的 设计 
仍 采用 卷 积 架 构 , 只 不 过 生成 模型 是 * 上 采样 ”的 过 程 而 判别 模型 是 “下 采样 ”的 过 程 ) 使 用 零 
和 博弈 的 策略 在 生成 模型 与 判别 模型 之 间 寻 求 平衡 ( 非 合 作 纳 什 均衡 点 )。 这 里 的 生成 网 络 
采用 具有 16 个 残 差 模块 的 网 络 ( 残 差 网 络 仍 为 一 种 卷 积 架构 ) ,而 判别 模型 使 用 的 是 VGG 
网 络 ( 分 类 器 为 高 低 分 辩 率 二 分 类 器 ) ,与 稀 朴 编码 和 传统 深度 学 习 模 型 做 图 像 超 分 辩 率 的 
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图 7.9 基于 深度 卷 积 生 成 对 抗 网 络 的 超 分 辨 任务 实现 


结果 相 比 可 以 发 现 深度 卷 积 生 成 对 抗 网 络 的 结果 能 够 提供 更 丰富 的 细节 ,这 也 是 该 模型 做 
图 像 生成 时 ( 当 整 个 网 络 模型 收敛 后 ,图 7. 9 中 虚线 框 部 分 ) 的 一 个 显著 优点 , 即 能 够 提供 更 
锐利 的 纹理 和 颗粒 细节 。 


3. 分 割 任务 


图 像 分 割 就 是 把 图 像 分 成 若干 个 特定 的 .具有 特定 性 质 的 区 域 并 提出 感 兴趣 目标 的 技 
术 和 过 程 。 下 面 从 数据 、 模 型 .优化 目标 函数 和 求解 四 个 方面 详 述 图 7. 10 的 过 程 。 
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图 7.10 基于 深度 卷 积 生成 对 抗 网 络 的 分 割 任务 实现 


1) 数据 (分 割 任 务 训练 数据 集 ) 
{xy TN (7. 30) 
这 里 的 x” 为 输入 图 像 ,y” 为 期 望 (分 割 后) 输出 , 即 Ground Truth, 


Q 

Q 
Q 150 

中 


(p 


深度 学 习 、 优 化 与 识别 
"inan. ftue. 


2) 模型 
关于 生成 模型 ,主要 描述 式 (7. 30) 中 输入 与 输出 之 间 的 关系 ,可 以 采用 传统 的 全 卷 积 神 
经 网 络 , 即 给 定 输入 图 像 ,得 到 预测 或 估计 输出 : 
$= glx.) (7.31) 
其 中 g&(。) 为 生成 模型 ,be 为 参数 ,了 为 Ground Truth y fif i iE. id 29 BM 4p 29 A SR 
Prediction Segmentation。 注 意 ,这 一 部 分 的 设计 便 是 分 割 任务 实现 的 核心 。 
关于 判别 模型 ,不同 于 之 前 的 输入 ,这 里 该 模型 的 输入 为 数据 对 , 即 利用 式 (7. 31) 可 得 : 
(x9 , y), (x ODD € RI, (7. 32) 
其 中 真实 输入 为 (x . y ) ,那么 判别 模型 所 对 应 的 输出 CD OS 1s 生成 输入 为 (x ， 
$0) ,对 应 着 O (2) 为 0, 其 中 六 "为 生成 模型 关于 x0 的 预测 输出 ; 如 何 设计 该 判别 模型 ? 
d(x,y,0") 
Lo 
Hp ac + A ABO 0° 为 参数 且 输 出 上 真 伪 特 性 。 
备注 1. 判别 模型 的 设计 技巧 ,输入 “对 ”数据 可 视 为 多 通道 并 利用 卷 积 神经 网 络 处 理 ， 
例如 第 6 章 深 度 多 尺度 几何 网 络 , 亦 可 设计 “两 条 ”通道 ,一 条 针对 输入 “对 ”中 的 x, 另外 一 
条 针对 输入 “对 ”中 的 y, 之 后 在 某 层 特征 图 后 进行 特征 融合 ,进行 全 连接 处 理 , 最 终 通过 真 
伪 二 分 类 器 实现 判别 输出 。 
备注 2: 判别 模型 的 损失 函数 ,通常 由 两 部 分 构成 ,一 部 分 是 真实 或 自然 数据 集 架 构 的 ， 
另 一 部 分 是 生成 或 伪 数 据 集 架 构 的 ,与 式 (7.4) 相 同 。 
3) 优化 目标 函数 
依据 数据 集 (7. 32) ,关于 判别 模型 的 优化 目标 函数 为 : 


N N 
minf— il SMog (dcx y?) 0) + Doga — dcx e» (7. 34) 
n=l n=l 
其 中 的 : 


(7. 33) 


J” = ga? ,0) (7.35) 
另外 ,根据 生成 模型 (也 称 分 割 模型 ) 的 要 求 ,一 是 预测 分 割 结果 尽 可 能 与 Ground Truth 的 
差异 性 小 ,二 是 期 望 判 别 模型 中 真 伪 输 入 数据 所 对 应 的 分 布 概 型 尽 可 能 一 致 ,所 以 得 到 生成 
模型 的 优化 目标 函数 为 : 


N N 
min & Dloss(y™ ,go ) — L Y Mog(dC (x? ,gCze ,0)) 09) (7.36) 
e Nia N 


n=1 


注意 这 里 计算 F 的 时 候 , 判 别 模型 的 参数 9? 是 固定 的 ,另外 这 里 的 loss(。) 可 以 使 用 基于 
能 量 的 范 数 衡量 ,如 Lo 范 数 等 。 

4) 求解 

关于 优化 目标 函数 (7. 34) 和 (7. 36) 的 求解 , 仍 采 用 交替 迭代 的 优化 方式 , 即 固定 判别 模 
型 的 参数 四 ,更 新 生成 模型 的 参数 OF 5 同 理 来 更 新 判别 模型 的 参数 9, 最 终 使 得 整个 网 络 
达到 稳定 状态 。 





7.3 深度 生成 网 络 模型 的 新 范式 


7.3.1 生成 式 对 抗 网 络 的 新 范式 


随 着 生成 式 对 抗 网 络 的 提出 ,第 一 次 从 观念 上 挑战 了 传统 的 深度 学 习 , 改 变 了 网 络 的 设 
计 及 优化 模式 ,通过 引入 零 和 博弈 的 理念 ,使 得 生成 式 对 抗 网 络 成 为 目前 最 为 热门 的 深度 学 
习 框 架 , 它 的 主要 贡献 在 于 : 一 是 提供 了 一 种 全 新 的 深度 框架 (该 框架 可 容纳 之 前 的 深度 神 
经 网 络 ); 二 是 提供 了 一 套 严格 的 理论 收敛 性 证 明 。 另 外 对 于 它 的 改进 ,不 仅 有 应 用 方面 
(如 分 类 ,分 割 和 超 分 辨 等 ) ,而 且 还 有 理论 方面 的 突破 ,如 基于 最 优化 传输 定理 可 以 明确 深 
度 神经 网 络 不 再 是 “黑箱 ”操作 等 。 下 面 主要 从 理论 和 应 用 方面 简 述 生成 式 对 抗 网 络 的 
进展 。 

1. 理论 方面 


从 数学 角度 ,关于 生成 式 对 抗 网 络 的 收敛 性 描述 为 : 假设 生成 模型 和 判别 模型 都 有 足 
够 的 性 能 的 条 件 下 ,如 果 在 迭代 过 程 中 的 每 一 步 ,判别 模型 都 可 以 达到 当下 在 给 定 生成 模型 
时 的 最 优 值 ,并 在 这 之 后 再 更 新 生成 模型 ,那么 最 终生 成 数据 的 概率 分 布 函 数 就 一 定 会 收敛 
于 自然 数据 的 概率 分 布 函 数 。 注 意 收敛 性 描述 已 经 被 严格 的 数学 证 明 。 不 论 是 之 前 的 损失 
敏感 度 生成 式 对抗 网 络 LS-GAN ,还 是 沃 瑟 斯 坦 生 成 式 对 抗 网 络 W-GAN, 其 改进 的 核心 在 
于 克服 判别 模型 具有 无 限 可 分 能 力 时 ,生成 模型 容易 出 现 梯度 弥散 的 现象 。 下 面 将 从 距离 
角度 和 能 量 角度 分 别 对 生成 式 对 抗 网 络 进行 改进 , 即 主要 陈述 F-GAN 和 EB-GAN 模型 。 

1) F-GAN(divergence family GAN) 

原始 的 生成 式 对 抗 网 络 强调 : 假设 已 知 自 然 数据 集 的 分 布 概 型 为 已 ,通过 生成 模型 估 
计 出 的 分 布 概 型 为 Q, 那 么 通过 俯 森 香农 散 度 (Jason Shannon Divergence) 来 刻画 这 两 个 分 
布 概 型 之 间 的 差异 性 , 即 


Ds (P || Q = 二 pe 人 P P| Jeto) FPu(FP+® | Q) 





(7. 31) 
Dean = 2Dys — log(4) 

xx HAS D ABBE. Hl Divergence, 而 不 是 判别 模型 ; Dis WS EEK HORE «Dk H KL 散 度 和 
Deax 为 生成 式 对 抗 网 络 的 散 度 。 注 意 自然 数据 和 生成 数据 所 对 应 分 布 概 型 之 间 的 差异 性 ， 
主要 体现 在 生成 模型 的 要 求 ,为 了 将 往 森 香农 散 度 推广 至 一 般 的 散 度 ,提出 了 F-GAN ,其 中 
的 下 可 理解 为 所 有 散 度 的 family; 

DP lo sh qG) - (ES Jae (T. 38) 
注意 不 同 的 AC。) 对 应 着 不 同 的 散 度 ( 本 质 上 , 散 度 也 是 一 种 距离 ), 常 用 的 有 函数 f(1) =u * 


logu) (对 应 KL 散 度 ) , G0 = (u— 1)? OG. Pearson 散 度 ) 以 及 fa) — i log) + 
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ulog) OG E f& RAE AR UE). F-GAN 可 以 视 为 传统 生成 式 对 抗 网 络 的 一 种 推广 ,即刻 画 分 
布 概 型 差异 性 的 DeAx 所 对 应 的 生成 式 对 抗 网 络 是 F-GAN 的 一 种 特例 。 

2) EB-GAN(Energy-Based GAN) 

生成 式 对 抗 网 络 中 判别 模型 的 设计 要 求 是 : 最 大 化 区 分 或 判别 自然 数据 与 生成 数据 ， 
即将 自然 数据 判断 为 真 的 概率 或 置信 和 度 要 高 ,同时 将 生成 数据 判断 为 真 的 置信 和 度 要 低 ; 
Lecun 研究 团队 发 现 , 该 要 求 等 价 于 将 判别 模型 视 为 一 个 能 量 函数 ,在 自然 数据 集 上 能 量 函 
数 所 具有 的 能 量 值 越 低 越 好 ,在 生成 数据 集 上 能 量 值 则 越 高 越 好 。 依 据 新 要 求 ,他们 改进 了 
判别 模型 的 设计 ( 即 网 络 结构 ), 同 时 也 给 予 生成 式 对抗 网 络 一 种 能 量 模型 的 解释 , 即 生 成 模 
型 是 以 产生 能 量 最 小 的 样本 为 目的 ,而 判别 模型 则 以 对 这 些 产生 的 样本 赋予 较 高 的 能 量 为 
目的 。 通 常 , 从 能 量 模型 的 角度 来 看 待 判别 模型 的 好 处 是 : 可 以 用 更 多 更 宽泛 的 结构 和 损 
失 函 数 来 训练 整个 生成 式 对 抗 网 络 。 下 面 我 们 给 出 一 种 基于 自 编码 网 络 的 判别 模型 来 设计 
生成 式 对 抗 网 络 的 结构 ,如 图 7. 11 所 示 。 












































图 7.11 基于 能 量 (判别 模型 ) 的 生成 式 对 抗 网 络 模型 


该 模型 的 核心 是 理解 判别 模型 针对 自然 输入 (数据 ) 的 能 量 值 越 低 ,而 对 应 着 生成 输入 
(数据 ) 的 能 量 值 越 高 ,如 何 从 数学 上 刻画 这 一 点 ? 
假设 自然 输入 (数据 ) 集 为 
(x9), (7.39) 
这 里 的 判别 模型 指 通过 自然 数据 集 来 训练 , 即 


N 
min x >) || £9? — x NEHA RO (7.40) 
n=l 


其 中 
€? = Dec(Enc(x® .0,) 0) 
(7.41) 
0 — (h 02) 


其 中 Enc(，。 ) 表 示 编 码 函 数 , 待 优化 的 参数 为 0 ; Dec + ) 为 解码 函数 , 待 优化 的 参数 为 0,。 
关于 自 编码 理论 已 在 第 4 章 深 度 堆 栈 网 络 中 详细 介绍 过 ,这 里 不 再 歼 述 。 物 理解 释 : 由 
式 (7. 40) 训 练 得 到 的 判别 模型 在 自然 数据 集 上 ,其 (损失 ) 能 量 值 : 

Energy(x.0) = || £—xll? (7. 42) 
满足 * 低 ”的 特性 (类 似 于 “ 真 ”样本 ); 注意 判别 模型 的 参数 9 固定 ,对 于 生成 数据 , 则 相对 
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(损失 ) 能 量 值 满足 "高 ”的 特性 (类 似 “ 伪 ?样本 ) 。 
备注 : 关于 生成 模型 仍 沿用 传统 的 思路 ,例如 ( 转 置 ) 卷 积 神经 网 络 架 构 ,本质 上 为 随机 
噪声 "上 采样 逼近 自然 数据 的 过 程 。 


2. 应 用 方面 


已 在 本 章 7. 2. 3 节 介 绍 了 生成 式 对 抗 网 络 的 几 种 应 用 ,包括 分 类 、 分 割 和 图 像 的 超 分 辩 
任务 ,这 里 介绍 一 个 典型 偏 应 用 方面 的 工作 , 即 感知 相似 度 评价 ,目的 是 期 望 改进 经 典 的 生 
成 式 对 抗 网 络 关 于 生成 图 像 清 晰 度 的 要 求 。 众 所 周知 ,生成 模型 的 要 求 是 期 望 生成 数据 的 
分 布 概 型 尽 可 能 接近 自然 数据 的 分 布 概 型 ,所 以 对 应 的 优化 目标 函数 为 : 


N 
Jo (09) —— >} log(D(G(2 09) 09») (7. 43) 


其 中 20? A n A Sd Ai OH fes Wr Ar FI Bi LR FE n = 1.2. Ns 另外 符号 DD 和 G 
分 别 表示 判别 器 和 生成 器 ,最 小 化 优化 式 (7. 43) 时 ,判别 模型 的 参数 02 是 固定 的 。 判 别 模 
型 的 要 求 是 遵循 最 大 化 判别 准则 , 即 

Jo) =- | Sloe De" ,02)) 十 > loga — vee" >| 


n=1 n=l (7. 44) 
£e? = Ge ,09) 

注意 这 里 噪声 数据 的 量 与 自然 数据 的 量 一 致 ,实际 应 用 中 无 须 一 致 ,优化 判别 模型 时 ,生成 
模型 的 参数 0 是 固定 的 。 

联合 优化 目标 函数 (7.43) 和 (7. 44) 便 可 达到 非 合 作 下 的 纳什 均衡 解 ,但 为 了 提升 生成 
图 像 的 清晰 度 , 引 入 感知 相似 度 , 即 满足 两 方面 要 求 : 一 是 期 望 生成 的 图 像 尽 可 能 与 自然 数 
据 一 致 (注意 随机 噪声 的 量 需 满足 与 自然 数据 的 量 一 样 ); 二 是 生成 数据 (图 像 ) 和 自然 数据 
在 某 特征 域 上 能 量 尽 可 能 一 致 ; 基于 此 得 到 如 下 的 两 个 损失 函数 : 


N 
Jw (09) = >) IG ,09) — x? | (7.45) 


"=l 


N 
Terenure (09) = >) ll TOG ,0°))— TG?) ld (7.46) 


n-1 
注意 关于 生成 式 对 抗 网 络 的 优化 , 仍 为 两 个 阶段 ,一 是 判别 模型 的 优化 仍 采 用 式 (7. 44) ,其 
中 生成 模型 的 参数 固定 ; 二 是 生成 模型 的 优化 为 式 (7.43) 、 式 (7.45) 和 式 (7. 46) 的 加 权 和 ， 
通过 拉 格 朗 日 乘 子 来 平衡 各 损失 项 , 即 
mindy * Je(0°) + As * Jimwee (09) HAs * Jr (0°) 
E 
à +a: +4; =1 C. 4T) 


s. t. 
Ox A X 1l. = 1,2,3 


从 目前 的 文献 来 看 ,生成 式 对 抗 网 络 主要 应 用 在 图 像 处 理 (图 像 超 分 辨 .交互 式 图 像 生 
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成 、 图 像 翻 译 等 ) 自然 语言 处 理 ( 根 据 文本 生成 图 像 、 对 话 生成 和 文本 生成 ) 等 方面 ; 另外 ， 
由 于 强化 学 习 注重 网 络 系统 与 环境 交互 作用 下 的 “赏罚 ”刺激 ,所 以 结合 强化 学 习 的 生成 式 
对 抗 网 络 更 易 获得 稳定 且 收 敛 的 解 ,同时 为 深度 强化 学 习 注入 新 的 模式 。 篇 幅 所 限 , 应 用 介 
绍 不 一 一 展开 。 


7.3.2 网 络 框架 的 性 能 分 析 与 改进 


1l. 生成 式 对 抗 网 络 的 本 征 分 析 


生成 式 对 抗 网 络 的 稳定 状态 受 限 于 自然 (真实 ) 数 据 的 质量 ,以 及 交替 优化 算法 的 设计 
(设计 使 用 何 种 距离 来 度量 分 布 概 型 和 真实 概 型 之 间 的 差异 性 ) 等 的 影响 ,同时 生成 模型 与 
判别 模型 的 参数 初始 化 策略 也 可 以 加 速 整个 网 络 的 收敛 进程 。 目 前 ,关于 “深度 神经 网 络 泛 
化 性 能 的 本 源 是 什么 ”成 为 热 ( 争 ) 议 的 、 且 本 质 的 焦点 ,例如 谷歌 大 脑 的 Samy Bengio 及 其 
合作 团队 认为 ,网 络 的 泛 化 性 能 源 自 于 模型 的 容纳 能 力 , 即 网 络 模型 的 有 效 容量 对 整个 数据 
集 的 暴力 “记忆 "是 足够 大 的 , 简 言 之 ,网 络 模 型 具有 “记忆 "特性 。 而 加 拿 大 蒙特 利 尔 大 学 的 
Yoshua Bengio 及 其 团队 认为 来 源 于 正则 化 ,不 论 是 显 式 正则 (如 数据 扩展 、 稀 疏 正 则 和 权 
值 衰减 等 ) ,还 是 隐 式 正则 ( 迁 代 次 数 早 终止 策略 DropOut 和 随机 梯度 下 降 求 解 方法 等 )， 
都 可 以 提升 网 络 的 泛 化 性 能 。 另 外 ,二 者 都 提出 相应 的 论据 互相 弱化 对 方 的 观点 。 飞 机 能 
飞 并 不 需要 像 鸟 一 样 振 翅 ,网 络 模型 的 泛 化 能 力也 并 不 全 在 网 络 * 记 忆 ”, 就 应 用 实践 来 看 ， 
更 多 的 正则 化 策略 及 技巧 (如 参数 初始 化 ) 能 大 幅度 提升 网 络 的 性 能 ,另外 需要 强调 的 是 数 
据 的 数量 并 不 是 网 络 收敛 或 呈 稳 定 状 态 的 核心 ,还 在 于 网 络 模型 对 每 个 数据 (拓扑 结构 、 分 
辨 特性 不 同 ) 的 敏感 度 , 即 数据 的 “ 质 ” 也 非常 的 重要 。 生 成 式 对 抗 网 络 不 仅 是 一 种 “全 新 ”的 
网 络 模型 ,更 是 一 种 全 新 的 “框架 ”, 在 该 框架 下 ,从 理论 到 应 用 实践 都 获取 了 诸多 良好 的 物 
理解 释 和 改进 的 思路 及 训练 技巧 ,更 是 对 “深度 神经 网 络 泛 化 性 能 的 本 源 ” 做 出 了 合理 的 回 
答 , 即 网 络 呈现 收敛 或 稳定 的 状态 在 理论 上 是 通过 零 和 博弈 支撑 的 ,在 整个 网 络 中 (包含 两 
个 网 络 , 即 生成 网 络 与 判别 网 络 ) ,一 个 网 络 的 “收益 ”( 即 泛 化 性 能 的 提升 ) 是 以 另 一 个 网 络 
的 “损失 ”为 代价 的 , 简 言 之 ,模型 泛 化 性 能 的 提升 在 于 “负面 ”刺激 或 “批评 ”与 监督 (获得 足 
够 的 经 验 能 够 自我 反馈 批评 之 前 ,有 一 个 外 部 的 批评 家 来 纠正 你 每 一 小 步 的 错误 可 以 更 容 
易 训 练 生成 网 络 及 提升 其 泛 化 性 能 ) 。 


2. 生成 式 对 抗 网 络 的 历史 沿 承 与 发 展 


生成 式 对 抗 网 络 是 深度 生成 网 络 的 一 种 ,在 此 之 前 就 有 将 判别 模型 与 生成 模型 进行 联 
合 学 习 的 想法 ,例如 Tony Jebara 在 2001 4E f] E Mh ie C HP iit DL ic K fi (1 JE CES S SERI 5; 
生成 模型 结合 起 来 联合 学 习 ; 2007 4E Zhuowen Tu 也 提出 将 基于 boosting 分 类 器 的 判别 模 
型 与 基于 采样 的 生成 模型 相 结合 ,来 产生 出 服从 真实 分 布 的 样本 ; 2012 年 Jun Zhu 将 最 大 
间隔 机 制 与 贝 叶 斯 模型 相 结 合 进行 产生 式 模 型 的 学 习 。 与 这 些 模型 相 比 ,2014 年 Ian 
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Goodfellow 等 人 提出 的 生成 式 对 抗 网 络 更 加 迎合 了 当下 大 数据 的 需求 和 深度 学 习 的 热潮 ， 

并 且 更 重要 的 是 它 给 出 了 一 个 大 的 框架 及 理论 收敛 性 分 析 。 在 此 框架 的 基础 上 , 近 三 年 来 ， 

从 理论 角度 进行 改进 提出 了 W-GAN、LS-GAN 等 模型 ; 从 应 用 实践 方面 ,提出 的 改进 模型 

有 EB-GAN,DC-GAN,VAE-GAN 等 ; 更 多 的 关于 生成 式 对 抗 网 络 的 模型 一 一 列举 如 下 : 
= GAN-Ian Goodfellow,2014-06 

DC-GAN-Alec Radford & Luke Metz, 2015-11 

C-GAN-Mehdi Mirza, 2014-11 

LAP-GAN-Emily Denton & Soumith Chintala, 2015-06 

Info-GAN-Xi Chen. 2016-06 

PP-GAN-Anh Nguyen. 2016-12 

W-GAN-Martin Arjovsky. 2017-01 

LS-GAN-Guo-Jun Qi.2017-01 

Seq-GAN-Lantao Yu. 2016-09 

EB-GAN-Junbo Zhao. 2016-09 

VAE-GAN-Anders Boesen Lindbo Larsen. 2015-12 

Stacked GAN-Zhang H. 2016 

Dual GAN-Zili Yi. 2017 


. 网 络 框架 的 突破 与 改进 


生成 式 对 抗 网 络 提供 了 一 种 无 监督 学 习 范 式 下 的 网 络 框架 并 给 出 了 强 有 力 的 理论 收敛 
性 分 析 ( 非 合作 纳什 均衡 ) , 它 为 深度 学 习 系 统 带 来 了 极 强 的 可 塑性 和 扩展 性 ,同时 也 包容 了 
传统 的 机 器 学 习 理念 (各 种 经 典 算法 的 移植 )。 当 然 该 网 络 也 存在 着 稳定 性 问题 ,以 及 客观 
量化 评估 (目前 生成 样本 的 质量 仍 依赖 主观 视觉 去 判断 ); 另外 ,从 实践 应 用 角度 来 说 ,目前 
多 数 方法 或 改进 模型 都 是 在 原始 框架 的 基础 上 稍 做 修改 ,例如 修改 损失 函数 ,或 者 在 C- 
GAN 或 LAP-GAN 的 基础 上 改进 , 仍 没有 一 个 具有 突破 .压倒 性 的 图 像 生成 模型 ,可 能 这 
和 生成 式 对 抗 网 络 缺 乏 客观 的 评估 指标 有 关 ; 综合 以 上 这 些 问题 ,该 网 络 仍 急需 理论 层面 
的 进一步 分 析 与 支撑 ,同时 在 实践 应 用 中 总 结 更 多 可 以 保证 稳定 性 的 高 效 可 行 性 策略 及 
技巧 。 


w 


7.4 应 用 驱动 下 的 两 种 新 生成 式 对 抗 网 络 


7.4.1 堆栈 生成 式 对 抗 网 络 


问题 描述 : 众所周知 ,通过 文本 描述 来 得 到 实际 场景 图 像 一 直 是 计算 机 视觉 中 的 难题 ， 
目前 ,诸多 已 知 的 处 理 方式 所 得 到 的 图 像 仅 能 够 粗略 地 反映 文本 所 描述 的 意思 ,但 常 失效 于 
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中 必要 的 细节 和 清晰 的 目标 。 
为 了 有 效 地 解决 这 一 实际 应 用 问题 ,Han Zhang 等 人 提出 了 堆栈 生成 式 对 抗 网 络 , 模 
型 主要 包括 两 个 阶段 ,第 一 阶段 基于 条 件 生成 式 对 抗 网 络 (C-GAN) ,依据 文本 的 描述 绘制 
目标 的 基本 颜色 和 初始 形状 ,从 而 产生 低 分 辨 图 像 的 描述 ; 第 二 阶段 同样 基于 条 件 生成 式 
对 抗 网 络 ( 注 意 与 第 一 阶段 的 网 络 设计 不 同 ) ,将 文本 描述 与 第 一 阶段 的 输出 作为 该 阶段 的 
输入 ,以 获取 高 分 辨 的 图 像 , 以 期 弥补 细节 或 精细 化 处 理 。 下 面 将 详 述 这 两 个 阶段 并 就 网 络 
模型 的 设计 给 出 数学 分 析 。 
第 一 阶段 .基于 条 件 生成 式 对 抗 网 络 的 低 分 辨 图像 描述 如 图 7. 12 所 示 。 
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图 7.12 基于 条 件 生成 式 对 抗 网 络 的 低 分 辨 图 像 描 述 


1. 数据 


ls, sz, Xn baer (7. 48) 
其 中 s, 为 第 n 幅 低 分 辨 图 像 x, 的 文本 描述 ,另外 z 为 服从 标准 高 斯 分 布下 的 随机 噪声 。 


2. 模型 

这 一 阶段 模型 的 架构 分 为 三 块 ,第 一 块 为 条 件 扩张 : 
9. = P(s) 
(p:0) = K(g) (7. 49) 
€ — T(a .o .€) 


这 里 的 符号 *P,K,T” 均 为 相应 的 统计 操作 ,其 中 gq, 为 将 文本 转化 为 词 向 量 ,e 为 条 件 表征 。 
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第 二 块 与 第 三 块 分 别 为 生成 器 ,判别 器 的 设计 ,其 仍 可 以 采用 深度 卷 积 生成 式 对 抗 网 络 的 架 
Fg ,这 里 不 再 丙 述 。 注 意 在 判别 器 的 设计 中 ,需要 加 入 词 向 量 g ,经 过 压缩 与 空域 复制 操作 
进行 向 量 矩 阵 化 处 理 , 从 而 实现 文本 信息 的 有 效 谋 入 。 


3. 优化 目标 函数 





min maxV (D,G,c,9.) 


— E,~p,,, [Llog(D(x,g, ,00))] + E~r, [log(1— D(G(, «c .05) ,9g, 4052) ] (7.50) 
注意 这 里 的 gm FI e 分 别 为 文本 所 对 应 的 词 向 量 和 条 件 表 征 。 另 外 ,在 实际 应 用 中 为 了 获 
取 较 为 平滑 的 图 像 ,同时 为 了 避免 过 拟 合 现象 ,通常 在 训练 阶段 ,对 生成 器 加 入 如 下 的 正 
则 项 ， 

Dy, CN (pte, ,or | N(0.D) (7.51) 
其 中 Deau Jy KL BOSE; 故 关于 判别 器 与 生成 器 的 优化 目标 函数 为 : 
i» --i[ SMog(DUx, +9, 0) + Sows — D(G, edo Pao) | 


n=1 


N 
Le = i Slog — D(Gct, «c, 4o. | +A * Di CN Qa «8, || NOD) 
n=l 


(7. 52) 
注意 g,, 为 第 n 条 文本 描述 所 对 应 的 词 向 量 ,x, 为 第 条 文本 所 对 应 的 低 分 辨 图 像 ,ec, 为 对 
应 的 条 件 表征 。 


4. 求解 


关于 优化 目标 函数 (7. 52), 通 过 交替 迭代 更 新 算法 ,实现 生成 器 与 判别 器 中 参数 的 
求解 。 

第 二 阶段 为 基于 条 件 生 成 式 对 抗 网 络 的 高 分 辩 图 像 精 修 。 

根据 图 7. 13 知 , 此 时 生成 器 的 输入 为 文本 描述 所 对 应 的 条 件 表征 e 和 低 分 辩 生 成 图 像 
( 即 第 一 阶段 生成 器 的 输出 ); 本 阶段 的 核心 描述 类 似 于 7. 2. 3 节 中 超 分 辨 任务 的 描述 ,与 
之 不 同 的 是 ,网 络 设计 中 融和 人 应 用 任务 所 刻画 的 词 向 量 与 条 件 表征 。 另 外 ,需要 注意 的 是 这 
一 阶段 的 数据 包括 

(人 (7.53) 

其 中 总 为 低 分 辨 图 像 x, 所 对 应 的 高 分 辨 图 像 。 仿 照 第 一 阶段 的 公式 (7. 52) ,关于 判别 器 
WIE AG H ER PR BOW 


N N 
Ly 一 一 i Slog XD, p, 05) + > logd — DG (xy «e, 0 9, 85 »| 
n-l n=l 


(7.54) 
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D 关于 生成 器 的 优化 目标 函数 为 : 
t= 1| Ziga - bii ;05 ) muto es Du ONGs, ,os ) ll NC DO 


(7. 55) 
关于 优化 求解 可 以 参考 7.3. 1 节 中 生成 式 对 抗 网 络 的 新 范式 ,这 里 不 再 袭 述 。 
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图 7.13 基于 条 件 生 成 式 对 抗 网 络 的 高 分 辨 图 像 精 修 


7.4.2 对 偶 学 习 范式 下 的 生成 式 对 抗 网 络 


从 2016 年 开始 ,无 监督 学 习 进入 实质 性 发 展 阶段 , 逐 层 学 习 、 生 成 式 对 抗 网 络 等 为 无 监 
督 方式 下 的 深度 学 习 注入 新 的 活力 ,同时 对 偶 学 习 也 为 研究 过 程 中 所 遇 到 的 困难 提供 了 新 
的 思路 。 针 对 机 器 “翻译 ”任务 ,包括 图 片 不 同 风格 间 的 转化 、 不 同 语种 间 的 翻译 等 ,对 偶 学 
习 范 式 下 的 生成 式 对 抗 网 络 ,充分 利用 未 标注 的 数据 ,提高 对 偶 任 务 中 的 两 个 “翻译 ”模型 的 
性 能 ,如 图 7. 14 所 示 。 下 面 针 对 图 片 不 同 风格 间 的 转化 任务 (如 彩色 照片 与 素描 图 之 间 的 
转化 ) 给 予 详细 的 描述 和 数学 分 析 。 


1. 数据 (训练 数据 ) 


人 (7.56) 
其 中 s, 为 素描 图 ,x, 为 素描 图 所 对 应 的 图 片 。 
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PRL 7.14 基于 对 偶 生 成 式 对 抗 网 络 的 图 片 风格 转化 任务 


2. 模型 与 优化 目标 函数 


模型 的 设计 包括 两 个 模块 ,分 别 是 从 素描 图 到 图 片 模块 和 从 图 片 到 素描 图 模块 ,前 者 将 
素描 图 作为 输入 ,真实 图 片 作为 监督 并 修正 生成 的 图 片 , 即 优化 目标 函数 为 : 
min maxV (G4 .D4 «s«x) =E,[log(Ga (zx,06, ))] 


+E,[log(Ga (Da(s,0p, ) 405, ))] (7.57) 
而 后 者 将 图 片 作为 输入 ,真实 素描 图 作为 监督 并 修正 生成 的 素描 图 , 即 优化 目标 函数 为 ， 
min maxV(Gg .Dg .s.x) —E,[log(Gs (s+, D] 


+ E, [log(Gp CDs Gr 0p, ) 405,2) ] (7.58) 
注意 ,为 了 建立 这 两 个 模块 之 间 的 联系 ,要 求 两 点 ,一 是 素描 图 的 相似 性 , 即 满足 : 
|| Gs (Ga G «05, 405,0 —s lE e (7.59) 
即 素描 图 通过 这 两 个 模块 的 操作 ,使 得 误差 最 小 ; 二 是 图 片 的 相似 性 , 即 满足 : 
| Ga(Ga(x.06,),06 )—xl} e (7.60) 


即 图 片 通过 这 两 个 模块 的 操作 ,使 得 误差 最 小 。 注 意 这 一 系统 的 稳 态 发 生 的 前 提 是 满足 
式 (7.59) 和 式 (7. 60) ,以 及 两 个 模块 对 应 的 判别 器 Da。 和 Ds 满足 最 大 化 识别 准则 。 


3. 求解 


关于 优化 目标 函数 (7.57) 和 (7. 58), 可 采用 交替 迭代 更 新 的 方法 ,包括 每 一 个 模块 
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的 参数 更 新 ,以 及 模块 间 带 有 约束 (7. 590 和 (7. 60) 的 和 迭代 更 新 。 详 细 请 参考 给 出 的 
论文 。 


7.5 变 分 自 编码 器 


目前 ,深度 生成 模型 的 组 成 包括 三 部 分 ,一 是 深度 置信 网 络 TR HE REIR ZEB DL. 二 是 生 
成 式 对 抗 网 络 及 其 变形 ; 三 是 变 分 自 编码 器 。 注 意 与 前 两 种 模式 不 同 的 是 , 变 分 自 编码 器 
更 注重 隐 特 征 空间 中 概率 密度 函数 的 学 习 与 刻画 。 下 面 根据 网 络 模型 的 结构 ( 见 图 7. 15)， 
进行 详细 的 数学 分 析 。 
注意 图 7. 15 中 的 e 为 噪声 ,为 了 下 面 描述 的 方便 ， 
简 记 编码 器 的 概率 生成 方式 为 Penod (z|x,0); 解码 器 | " | | 
一 > ER 























为 Poss (x1z,9); Jh 0800 为 待 学 习 的 参数 , 则 优化 d T 
目标 函数 为 ， 
max Eppa cis Clog P pecoder Gr | z,9))] L 解码 器 
s. t. Di, (Penod (z | x40) || P(z)) Se 图 7.15 变 分 自 编码 器 的 结构 
(7.61) 
等 价 地 , 拉 格 朗 日 增 广 函 数 为 ， 


max E pe wtsles0 log CP Decoder Gr | 2,2)2]—A * Dri (Pencoder Cz. | x00 || P(2)) < € 


(7. 62) 
其 中 的 4 二 0 为 拉 格 朗 日 因子 ,另外 这 里 的 约束 先 验 P(z) 为 标准 的 高 斯 分 布 , 即 
PG) ~ NO.D (7. 63) 
注意 : 通常 在 实际 应 用 中 ,例如 手写 体 数 据 , 期 望 通过 编码 器 ,挖掘 输入 数据 在 隐 特 
征 空间 上 概率 密度 函数 的 有 效 表达 ,然后 根据 概率 密度 函数 进行 采样 ,通过 解码 器 生成 
同类 但 风格 馆 异 的 手写 体 数 据 。 首 先 , 假 设 所 有 的 手写 体 数据 {x,) 沪 都 是 独立 同 分 布 
的 , 则 利用 最 大 负 对 数 似 然 法 ,对 生成 模型 Powses (x1z,9) 进 行 参数 估计 , 即 有 如 下 的 优化 
目标 : 
max — log Pisas ng) =— lof TT Pisas) 


n=1 


N 
—— ))logP decoder (Xn +9) (7.64) 
注意 利用 变 分 自 编码 器 中 编码 概 型 去 逼近 解码 的 后 验 概 型 , 即 
Prncoder (Z | i595 p cs | x,.0) (7. 65) 


其 中 ==1,2,…,N。 进 一 步 通过 KL 散 度 衡量 二 者 之 间 的 差异 性 ,从 而 有 





Dii CPrseoae Cz. | Xn +9) || Poecoder C | Xn 250) 


= Prencoder (2 | x, 0) 
MI [s (ons | =) 


" Pus ]x0) 
= Ep ae) [Hoe P precoder (Zs Xu +9) 


进一步 ,对 于 式 (7.66) 有 : 


J+ log Prater Gr, 9) | (7.66) 


log Presa Gr, ,9)) —— Ep, iin, t [ioc (Ine L0] 
+ Di (Pencoder (Z | x, 29) Il Precoder (Z | x, 99) (7.67) 
注意 式 (7. 67) 3X C7. 62) 具 有 一 致 性 ,特别 当 4 二 1 时 ,二 者 相等 。 
通常 直接 优化 目标 函数 (7. 64) 是 不 可 行 的 , 因 KL 散 度 通常 是 小 于 零 的 ,所 以 根据 
式 (7.66) 有 : 
log Ppecoder (Xn 490) > LO. 9. ) 


(7. 68) 


L(.9,x,) 全 一 Ep, stel [los( rears | )] 


Ppecoder (Z + Xn +9) 
= Eppoi tly 0 Llog Posse Gi x, +9) — logC Pencoder (z | Xn +O) ] 
进而 将 优化 问题 转化 为 它 的 下 界 : 


min L (0.9) = XY LO.9.x,) (7.69) 


n=l 


由 于 了 (0,9,x,) 关 于 参数 0 的 梯度 方差 很 大 ,不 适用 于 数值 计算 ; 为 此 有 两 种 改进 的 思路 : 
一 种 是 将 编码 器 的 概率 生成 方式 Pas (z|x,0) 替 代为 < 二 P(e,x), 其 中 的 。 为 噪声 , 即 
图 7. 15 中 的 描述 。 于 是 得 到 优化 目标 函数 (7.69) 的 估计 式 为 : 


[3 
L(.9.x,) = E D Hog Pas Gr En 0) — log Pas (zn | xy0))] (7. 70) 
i=l 


Hop L 为 噪声 分 布 P(e) 下 采样 的 个 数 , 且 


Zar = PG x) 
0.11) 
e, ~ P(e) 


另 一 种 思路 是 将 Poss (Xn 00 PARA P oecoder (Xn 1200 ,以 及 将 Precoder (Z| x, 200 EE P), 
将 其 代入 到 式 (7.66) 中 得 到 另 一 个 优化 目标 函数 的 估计 式 为 : 


L 
L(0,0.x,) = i Mes, | z,4:90) — Di (Penod (2 | x, 40 | PCz)) (7. 72) 


HPL 的 解释 与 上 面 的 一 致 ,并 且 满 足 式 (7. 71)。 注 意 在 实际 应 用 中 ,为 了 启动 该 算法 ， 
常 取 : 


P(z) ~ NOO.D (7. 73) 


ro ~ NO.D 
z= P(e.x) = ud o Oc 
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具体 地 ,根据 图 7. 15, 模 型 的 描述 分 为 编码 阶段 与 解码 阶段 ,其 中 编码 阶段 的 关系 为 : 


h = tanh(W, - x 4- bi) 
B=W.-h+bh 


(7. 74) 
o = W; -h+b; 
z=ptoOe 
解码 阶段 的 关系 为 : 
h = tanh(W, + z+ b) 
. (7.75) 
X = tanh(W; * h+ b;) 





优化 目标 函数 可 以 采用 式 (7. 700 BSR CT. 72) 进 行 求解 。 
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深度 复 卷 积 神经 网 络 与 深度 二 值 神经 网 络 


CHAPTER 8 





扩张 深度 神经 网 络 一 一 数 域 延 拓 、 简 化 约束 


n 深度 复 卷 积 神经 网 络 一 一 复数 域 C 
量 深度 二 值 神 经 网 络 一 一 二 值 化 、 小 而 快 的 神经 网 络 时代 
m 深度 脉冲 神经 网 络 一 一 生物 神经 脉冲 响应 
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Q 8.1 深度 复 卷 积 神经 网 络 


8.1.1 网 络 模型 构造 的 动机 


关于 深度 卷 积 神经 网 络 已 在 第 3 章 详细 介绍 过 ,由 于 实际 应 用 中 数据 所 在 的 域 通 常 为 
KARR ,所 以 常见 的 深度 卷 积 神经 网 络 的 计算 环境 也 是 实数 域 ; 若 对 于 复数 域 C 上 的 数 
据 , 例 如 极 化 SAR 影像 分 类 任务 ,其 处 理 流程 图 如 图 8. 1 所 示 。 























输出 




















预 处 理 及 特征 工程 (特征 ) 数 据 架 构 依据 类 别 建 伪 彩 图 





图 8.1 极 化 SAR 影像 分 类 流程 图 


图 8. 1 中 预 处 理 及 特征 工程 包含 滤波 增强 等 处 理 ,以 及 根据 物理 与 统计 特性 进行 特征 
提取 与 第 选 ( 如 降 维 处 理 的 流 形 降 维 、PCA 降 维 等 ) ,处 理 完 后 便 可 以 建立 复数 域 ( 即 空域 
到 实数 域 ( 即 特征 域 ) 的 “映射 ”, 即 输入 中 的 每 一 个 位 置 或 “像素 "可 由 特征 域 上 的 一 向 量 进 
行 描述 或 刻画 ,通常 这 一 步 处 理 的 好 坏 取决 于 对 (空域 ) 数 据 先 验 的 认 知 ; 随后 的 (特征 ) 数 
据 架 构 便 基于 特征 域 来 实现 “ 逐 像素 ”特征 整理 一 一 训练 与 测试 集 ,进一步 ,基于 机 器 学 习 
(如 SVM 、 神 经 网 络 等 ) 或 深度 学 习 ( 如 深度 置信 网 络 ,深度 卷 积 神经 网 络 ) 实 现 分 类 ; 最 后 ， 
依据 ( 逐 像素 ) 分 类 结果 实现 伪 彩 图 输出 。 可 问题 是 这 种 处 理 方式 将 数据 从 复数 域 到 实数 域 
的 转化 过 程 中 ,是 否 有 信息 损失 ? 损失 是 否 影响 网 络 的 性 能 ?能 否 直接 在 复数 域 上 对 数据 
进行 处 理 , 以 削弱 对 数据 中 某 种 先 验 (物理 及 统计 特性 ) 的 依赖 性 ? 基于 此 ,本 节 将 对 深度 复 
卷 积 神经 网 络 给 出 积极 的 探索 。 


8.1.2 网 络 模型 的 数学 物理 描述 


本 节 仅 探索 实数 域 上 的 深度 卷 积 神经 网 络 向 复数 域 进行 延 拓 时 ,相应 的 操作 如 何 进行 ? 
以 及 整个 深度 复 卷 积 神经 网 络 的 结构 和 数学 理解 。 


1. 模块 延 拓 的 数学 物理 描述 


深度 卷 积 神经 网 络 主要 包含 卷 积 流 和 全 连接 层 模块 ,下 面 将 详 述 这 两 个 模块 从 实数 域 
向 复数 域 的 延 拓 中 所 进行 的 具体 操作 。 
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1) 复数 域 上 的 卷 积 流 操 作 
假设 当 输入 数据 (图 像 ) 为 : 
x = Xr tj’ xy, € C?" (8.1) 

其 中 符号 j 为 虚数 单位 。 
CD 卷 积 操作 一 一 放大 或 缩小 





假设 卷 积 核 或 滤波 器 为 : 
W = We Fj ° Wim € C^" (8.2) 
则 关于 输入 进行 卷 积 操作 后 有 : 
x* w= (Xg, * WRe — Xim * Wim) +j 。 (Xim * Wre + XRe * Wim) € Cnxm (8.3) 


Fep“ x ” 仍 为 卷 积 的 操作 ,其 操作 的 属性 仍 分 为 Full 3. Same 卷 积 和 Valid 卷 积 等 。 不 同属 
性 下 的 卷 积 所 对 应 的 尺寸 大 小 不 一 致 。 不 失 一 般 性 ,这 里 描述 的 卷 积 属性 为 Valid, 则 有 : 


m —n—u-cl 
| (8.4) 
m|—m-—vtl 


更 多 关于 卷 积 操作 的 描述 请 参考 第 3 章 深度 卷 积 神经 网 络 ,另外 关于 实数 域 上 的 反 卷 积 及 
转 置 卷 积 等 概念 可 相应 地 移植 到 复数 域 上 。 通 常 , 卷 积 操作 中 有 两 个 参数 ,一 个 是 步 长 
Stride, 另 一 个 是 覆盖 Padding 的 方式 (Full Padding 和 Zero Padding) 与 尺寸 。 在 Valid 卷 
积 下 仍 使 用 如 下 公式 计算 特征 图 (每 一 维度 ) 的 新 尺寸 : 








inputsize — kernelsize + 2 。 padding | | 1 (8.5) 


newsize | = 
stride 


其 中 的 kernelsize 为 滤波 器 的 尺寸 ,inputsize 为 输入 的 尺寸 ,注意 式 (8.4) 中 的 Stride 为 1. 
Zero Padding 为 0。 





(2) 池 化 操作 一 一 平移 不 变性 
假设 卷 积 操作 后 的 特征 图 记 为 : 
f=xxwti+y€ Cm (8.6) 


注意 这 里 的 7 为 偏 置 , 即 p= yr Hj e qs € C ,复数 矩阵 与 复数 相 加 , 即 矩阵 中 的 每 一 个 元 素 
与 该 复数 相 加 。 进 一 步 ,假设 池 化 操作 的 半径 记 为 ~, 则 对 特征 图 f 进行 池 化 后 得 : 
P(f) = Pref) +j e Pml f) € Cm (8.7) 
其 中 P HbA Cooling) 8E WA : 
T 


« [2] 
操作 |， | 为 向 下 取 整 。 
备注 : 这 里 的 池 化 操作 也 可 以 为 空域 塔 式 池 化 。 
(3) 非 线 性 (激活 ) 操 作 一 一 扭曲 特性 
实数 域 上 的 激活 函数 通过 如 下 方式 延 拓 至 复数 域 上 , 即 


(8. 8) 
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Gg T = 6 P(f)) =o( PGD Hj + o(Pin(f)) € Com (8.9) 
其 中 的 c(，) 为 非 线 性 激活 函数 ,常用 的 有 修正 线性 单元 ReLU, 
(4) 批量 归 一 化 (局 部 响应 归 一 化 ) 操 作 一 一 加 速 计算 并 保持 拓扑 结构 对 应 性 。 
归 一 化 操作 与 实数 域 一 致 , 即 
K = N(T) SNO) +j- NO) € Cem (8. 10) 
这 里 的 NC + ) 为 归 一 化 操作 (或 局 部 响应 归 一 化 )。 
2) 复数 域 上 的 全 连接 层 操 作 
当 获 取 若 干 卷 积 流 处 理 后 的 特征 图 (Feature Maps) 后 ,通常 会 通过 拉 伸 或 向 量化 操作 
得 到 相应 的 特征 ,再 通过 全 连接 层 进一步 处 理 , 即 
V — vec(K) € C^ 
re = (WV +b) ec (8.11) 
W € C^ ,b € C 
其 中 的 vec(。) 为 矩阵 向 量化 的 操作 , 即 通过 按 行 或 按 列 ,抑或 按 * 之 ?字形 进行 拉 升 。 另 外 
这 里 的 oC * ) 为 非 线性 函数 ,与 式 (8. 9) 的 计算 一 致 : 另外 和 矩阵 与 向 量 相 乘 , 相 加 操作 符合 复 
数 域 上 的 运算 法 则 。 


2. 模型 的 数学 理解 


下 面 仿照 实数 域 上 的 LeNet5 网 络 ,给 出 复数 域 上 网 络 模型 的 结构 (图 8. 2) 并 详细 地 分 
析 如 下 。 


(w', b) Qv b) | 


al) 











图 8.2 深度 复 卷 积 网 络 一 一 复数 域 上 LeNet5 网 络 


1) 数据 (训练 数据 集 ) 


(39.99 TE, (8.12) 
其 中 输入 x. 
x? c Quee (8.13) 
即 « 个 通道 ,每 个 通道 下 的 尺寸 为 nXm; 另外 y ? 为 对 应 的 类 标 。 
2) 模型 


根据 图 8.2, 假 设 输入 为 x€E Crs ,前 向 传输 至 第 二 个 全 连接 层 的 输出 记 为 XEC'( 也 
称 为 深层 抽象 特征 ) , 即 利用 如 下 的 公式 : 
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X = p(x,9) 
| (8. 14) 


9 = [w ww sb! b,b] 
其 中 的 (wi,b') 江 为 相应 层级 复数 域 上 的 滤波 器 与 偏 置 。 
获取 特征 表示 X € C' 后 ,针对 分 类 任务 ,如 何 设 计 分 类 器 ( 即 图 8. 2 中 虚线 框 的 理解 )? 
下 面 给 出 两 种 设计 分 类 器 的 方式 ,第 一 种 是 将 数据 x 所 对 应 的 类 标 y 扩展 为 复数 域 , 即 如 分 
类 类 别 个 数 为 C, 且 x 对 应 的 类 标 为 第 二 类 , 则 输出 y 可 写 为 : 





0 十 j .0 
ke ee (8.15) 
O+j-0 
设计 的 ( 非 线性 ) 分 类 器 有 : 
?了 一 a(WY .X 十 B) (8. 16) 
其 中 人 参数， 
WE co 
(8.17) 
Bec 
备注 : 式 (8.16) 中 的 分 类 器 也 可 包含 复数 域 上 Softmax. HII 
y) = P(label(x) = c | X.8.) = EC 
Sez , (8.18) 


6. € C,c = 1,2, C 
其 中 的 >(c) 表 示 输 出 y€ C 的 第 c HICH AE 23109 5 BON (COE 
第 二 种 分 类 器 的 设计 是 直接 将 输入 的 深层 抽象 特征 X € C ,转化 为 实数 域 上 的 特征 , 例 
如 将 其 实 部 与 虚 部 堆栈 形成 : 


x - (**]e rR (8.19) 
Xin ` 


或 者 利用 其 模 与 幅 角 ( 辆 角 主 值 ) 构 成 实数 域 上 的 特征 并 去 量 纲 归 一 化 。 根 据 得 到 的 实 
数 域 上 的 特征 进行 熟悉 的 分 类 器 设计 ,注意 此 时 的 输出 y 不 用 扩展 至 复数 域 。 
3) 优化 目标 函数 
关于 分 类 器 的 设计 采纳 第 一 种 设计 思路 ,利用 式 (8. 14) 和 式 (8. 18) 建 立 的 输入 与 输出 
之 间 的 关系 ,得 到 优化 目标 函数 为 : 
min] (9,0) 一 一 : i» X adael”) = = c) + [log E CO) + log FR C0] 


8 = (807. 
(8. 20) 
其 中 OC HAR si E PR BK VE PRL B Pb e CO 29 985 上 个 样本 预测 为 第 类 的 概率 的 实 
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ERMS (c) 为 相应 的 虚 部 ; 待 优化 的 参数 包括 特征 学 习 阶 段 的 9 和 分 类 器 设计 阶段 
的 g 。 
对 于 回归 任务 而 言 ,可 利用 能 量 损失 来 建立 如 下 的 优化 目标 函数 (依据 两 个 复数 相等 ， 
即 实 部 与 虚 部 所 对 应 的 值 相同 ) : 
T 
min (WB) = DCI $e —» E+ M $e —»g M3 
PW. i (8. 21) 
JP = oWe X? +B) = o(We g(x 9) +B) 
DRR 
关于 优化 目标 函数 (8. 20) 的 求解 ,可 以 利用 随机 梯度 下 降 的 方式 来 实现 , 即 分 类 器 设计 
阶段 的 更 新 公式 为 ， 
gi» = 8? —a + 10 oan 


20, = uo (8. 22) 
70 — (?0,.?0,.--..?0) 

特征 学 习 阶 段 的 更 新 公式 为 : 
ID = 9 —a e 279 | uo 
"- 3J (9.0) (8. 23) 
à ag 


其 中 的 o 为 学 习 速率 。 求 解 过程 中 核心 计算 误差 传播 项 ,复数 域 可 分 为 实 部 与 虚 部 分 别 
计算 。 

备注 : 关于 深度 复 卷 积 神经 网 络 的 应 用 ,如 极 化 SAR 图 像 的 分 类 任务 和 实验 技巧 可 参 
考 第 12 章 。 


8.2 深度 二 值 神经 网 络 


8.2.1 网 络 基本 结构 


传统 的 深度 神经 网 络 通 常 关于 前 向 传播 和 反 向 传播 使 用 的 是 浮 点 计算 ,然而 该 计算 所 
需 大 的 存储 空间 和 大 的 计算 量 , 严 重地 阻碍 其 (如 便携 设备 ) 应 用 ; 为 此 ,人 们 探索 了 大 量 的 
二 值 化 或 三 值 化 等 策略 ,期 望 降低 对 存储 空间 和 计算 量 的 需求 以 达到 便携 的 应 用 目的 ,但 可 
惜 的 是 一 直 以 来 难以 达到 高 预测 准确 率 。 最 新 的 研究 进展 给 出 ,加 拿 大 蒙特 利 尔 大 学 
Yoshua Bengio 团队 提出 的 二 值 化 神经 网 络 设法 让 计算 主要 在 一 1 和 十 1 之 间 进 行 ,可 以 成 
几 十 倍 地 降低 内 存 和 计算 量 并 使 预测 准确 率 达到 实用 水 平 ,但 仍 需 指出 的 是 二 值 神经 网 络 
的 信息 损失 相对 于 浮 点 精度 下 的 神经 网 络 是 非常 大 的 。 

备注 : 二 值 (化 ) 神 经 网 络 模型 与 输入 输出 限制 在 (0,1) 之 间 的 受 限 玻 尔 效 曼 机 和 二 元 
域 上 逻辑 操作 的 神经 网 络 不 同 。 
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8.2.2 网 络 的 数学 物理 描述 


本 节 给 出 的 深度 二 值 神经 网 络 是 Yoshua Bengio 团队 提出 的 ,下 面 详细 地 给 出 论文 的 
数学 分 析 。 

注意 该 网 络 并 没有 对 输入 也 要 求 是 二 值 化 的 ,另外 针对 分 类 任务 ,输出 为 类 标 是 不 变 
的 ,但 该 模型 对 于 回归 任务 (逼近 ) 的 性 能 尚未 研究 ,通常 二 值 神经 网 络 随 着 层级 的 增加 , 信 
息 的 损失 相对 于 浮 点 计算 的 神经 网 络 是 非常 大 的 。 注 意 这 里 针对 分 类 任务 进行 如 下 分 析 ， 
假设 类 别 个 数 为 C。 


1. 数据 (训练 数据 集 ) 


{x € R*,y € (0,1)9)1., (8. 24) 
其 中 y” 为 输入 x” 所 对 应 的 输出 (类 标 指示 )。 
2. 模型 
首先 给 出 经 典 的 深度 前 馈 神经 网 络 关于 层级 状态 s, 与 响应 或 激活 值 o 的 关系 式 : 
—W,*fiacbi 
(8. 25) 
; = 0 (s) 


其 中 11.2. Leo C* 0858 LER E f cn | —— 
数 。 接 下 来 ,依据 图 8. 3 中 的 要 求 , 将 其 改 为 二 值 化 oe SER 





Z e eo 
的 传播 形式 : H 2 © o 8 。 
W, * fia oo Oo OO 
e o 9 ° e 
ee = o? (sy) (8.26) |, o © e 输出 
W, € (-1,1)"*"ia 5 f, € (— 1,1} 第 二 隐 层 第 四 隐 层 








其 中 mw(1 二 1,2,…, 工 ) 为 第 1 个 隐 层 上 的 激活 单元 7, 5 _ RAEN 
个 数 ,另外 = ”(，) 为 非 线 性 激活 操作 ,符号 { 一 1， «DS AMRITA ud 
1,89 — (B 468 u X o HEXR EL PE ESR CB. 260 与 ictu, 
3X CG. 250 ff DX 9] o 
通常 ,实际 操作 中 ,会 对 每 一 隐 层 的 激活 值 进行 
批量 归 一 化 操作 , 即 在 数据 经 过 一 层 进入 下 一 层 之 
前 ,使 之 均值 为 0, 方 差 为 1。 这 样 处 理 的 优点 包括 : 一 是 加 速 训练 过 程 ; 二 是 减少 权重 的 值 
的 尺度 的 影响 ; 三 是 批量 归 一 化 所 带 来 的 噪声 具有 模型 正则 化 的 作用 (本 质 上 为 乘 性 与 加 
性 噪声 的 三 加 ) 。 例 如 ,假设 数据 集 (8. 24) 分 为 卫 批 ,每 一 批 数量 为 M, 则 有 : 
N=P-M (8, 27) 
对 于 每 一 批 数 据 , 假 设 得 到 第 1 隐 层 上 的 激活 值 , 记 为 : 
(a9, —e Uf 3s (8. 28) 








图 8.3. 深度 二 值 神经 网 络 的 要 求 
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则 批量 归 一 化 操作 , 即 对 激活 值 ,依据 其 均值 与 方差 ,实现 归 一 化 ,但 考虑 到 二 值 化 网 络 的 特 
性 ,使 用 的 归 一 化 操作 为 Shift based Batch Normalization Transform, Bl 5j Jy . 
(ff? 1, = BatchNorm({ ff? j 8) (8.29) 
其 中 的 0 为 第 1/ 隐 层 的 待 学 习 参 数 ,注意 这 里 仍 使 用 均值 和 方差 来 实现 归 一 化 操作 «i i 5j 
理解 所 限 ,具体 请 结合 代码 和 论文 的 分 析 。 
最 后 ,具体 地 给 出 {fi,Wi}) 二 1 是 如 何 进 行 二 值 化 的 。 青 强调 一 点 : 该 网 络 的 二 值 化 仅 限 
于 权 值 矩阵 与 每 一 层 上 的 激活 值 ( 除 输入 层 外 ) 。 





f! = BinarizeC fi) 
(8. 30) 
a = Binarize(W,) 
常用 的 二 值 化 函数 Binarize(。) 包 括 确定 性 和 随机 性 两 种 ,确定 性 的 为 : 
+1 ify>o 
» = sign(v) = | (8.31) 
—1 else 
随机 性 的 为 : 
+1 with probability p = £6) 
y= (8. 32) 
人 1 with probability 1 — p 
其 中 的 
to) = max{ 0+min( 1.4 x) (8. 33) 
注意 式 (8. 31) ,3K C8. 32) 和 式 (8. 33) 是 逐 元 素 进行 的 ,可 推广 至 式 (8. 30) 。 
3. 优化 目标 函数 
依据 式 (8. 260 ,其 中 输入 数据 x 记 为 : 
fx (8. 34) 


但 是 这 里 的 fo 不 为 二 值 化 。 进 一 步 ,假设 对 于 输入 x 得 到 第 工 隐 层 的 二 值 化 输出 为 ft ON 
抽象 特征 ) ,后 面 的 分 类 器 可 以 利用 支撑 向 量 机 或 Softmax 等 ,不 失 一 般 性 , 非 线性 分 类 器 可 
以 写 为 : 
y=o Wia * fi) (8. 35) 
车 进一步 要 求 Wii1 是 二 值 化 的 , 则 可 以 将 式 (8. 26) 和 式 (8. 35) 统 一 起 来 ,只 需 将 层级 数 变 
为 工 十 1( 包 含 一 个 输出 层 ) 。 
优化 目标 函数 为 : 


N 
i -l p00 nd , 
minJ (W.8) N 2, loss sy”) +A + RW) (8. 36) 


其 中 的 W 和 8 分 别 为 权 值 矩阵 和 批量 归 一 化 操作 中 的 参数 , 即 有 : 
W = {W 


6 = (81. 


(8. 37) 
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注意 输出 层 不 需要 批量 归 一 化 。 另 外 ,损失 函数 loss(。) 可 以 使 用 交互 焙 的 形式 来 构造 , 符 
号 R(W) 为 关于 权 值 矩阵 W 的 正则 性 约束 。 


4. 求解 


关于 优化 目标 函数 (8. 360 ,给 出 求解 框架 之 前 , 先 给 出 几 个 先决 或 假设 条 件 : 
假设 一 : 超 参数 (包括 层 数 、 隐 单元 个 数 和 激活 函数 ) 等 已 给 定 。 

假设 二 : 使 用 随机 梯度 下 降 的 方法 , 且 利用 式 (8. 27) 对 数据 进行 分 批 次 处 理 。 
假设 三 : 二 值 化 函数 使 用 确定 性 的 , 即 式 (8. 31) 。 

假设 四 : 关于 参数 , 即 (W,0 ) ,随机 初始 化 , 且 对 于 权 值 矩阵 实现 二 值 化 处 理 。 
基于 以 上 的 假设 条 件 , 已 知 : 


iw? ,0°} = (wi? m (ma) (8. 38) 
其 中 “(0)” 代 表 初 始 化 参数 ,假设 迭代 次 数 为 本, 得 到 : 
{W a>} (8. 39) 


并 期 望 达 到 ， 
Iw? —w* li<é 


|e»—e li<e 
Hp eH RAE W "RIO" 为 式 (8. 360 f fie s 通常 ,可 以 可 视 化 这 一 期 望 的 方式 是 绘制 目 
标 函 数 (8. 36) 随 着 迭代 次 数 变化 的 值 , 即 
JW? ,0°) (4 = 1,2,..,T) (8.41) 
并 满足 该 值 的 趋势 是 整体 下 降 , 允 许 局 部 有 所 上 升 (震荡 )。 
针对 某 一 次 迭代 ,如 已 知 1 次 的 参数 值 , 即 
(wo ,0°} (8. 42) 
如 何 更 新 :十 1 次 的 参数 值 ? 由 于 对 数据 进行 分 批 处 理 , 即 批量 Epoch 王 已 , 且 每 一 批 的 数据 
为 N,=M 且 p=1,2,…,P。 
备注 : 这 里 是 对 数据 集 (8. 24) 进 行 “平均 化 ”划分 , 即 每 一 批 数 据 相 同 , 也 可 随机 式 划 分 
或 随 着 批 次 示 数 p 的 增加 , 批 次 数据 呈 某 种 “趋势 "变换 (如 下 降 )。 
先 根据 p— 1 时 , 即 N =M 个 数据 来 更 新 第 1 次 的 参数 值 , 得 到 : 
(WED GED ) = Update(W?? 8? ,Ni1) (8. 43) 
其 中 Update(。) 包 含 三 步 , 一 是 目标 函数 关于 参数 的 偏 导数 ,并 计算 梯度 的 下 降 量 ;, 二 是 
给 定 学 习 速率 计算 更 新 后 的 参数 ; 三 是 对 参数 中 的 权 值 矩 阵 ( 每 一 层 上 的 ) 进 行 二 值 化 处 
理 。 下 面 给 出 这 三 步 的 数学 分 析 。 
1) 第 一 步 : 计算 偏 导数 与 梯度 下 降 量 
依据 优化 目标 函数 (8. 36) ,由 于 此 时 的 数据 量 仅 为 Ni =M 个 数据 ,所 以 : 


(8. 40) 


N, 
min], (W.0) = E D losg” y?) +A + RW) (8.44) 


1 n=1 


175 © 


Q 


Q 
© 


1 


76 


Q 


深度 学 习 、 优 化 与 识别 
"HS (Eee 


中 其 中 万 (W,b) 中 的 角 标 1? 为 p—1 的 意思 ; 并 计算 





a (W:0) ATWO) AT, (W,0) 
aw [ 9W; C OW ] 


2],QV.60.— ATWO) ... AT, W0) 
28 [ 298 "7 " 296 ] 


在 反 向 传播 算法 中 , 逐 层 偏 导 数 的 求解 核心 依赖 逐 层 误差 传播 项 的 建立 和 链 式 法 则 的 应 用 。 
进一步 ,可 得 梯度 下 降 量 为 : 

备注 : 这 部 分 为 整个 求解 算法 的 核心 ,篇幅 与 理解 所 限 , 请 结合 源 代 码 和 参考 文献 进 一 
步 理 解 ,这 里 仅 给 出 框架 。 





(8. 45) 






































23J,QV.0) oJ, QV.0) 3J, QV .0) 
IW |w_wo - DON 8) 
Ier ow w-w? [ aW, wm=? Win Wo 7 Wii ] 
aes 29]; QV.0) 23] QV 0) 
20 lee eM 
low 20 ew [ 38, mo? 38, | -do ] 
(8. 46) 


注意 参数 下 面 的 指标 为 层级 示 数 ,例如 Wi; ,0, 角 标 *1? 为 相应 层级 上 的 参数 。 

2) 第 二 步 : 更 新 参数 

第 1 十 1 次 所 有 批量 下 ( 即 随 着 p= 二 1,2,…,P 的 变化 ) 的 参数 更 新 所 使 用 的 学 习 速 率 记 
H a? ,所 以 参数 更 新 为 : 


WHD = WO — gD eW [uo 

(8.47) 
OD mq — ar o 20 |, uo 
注意 : 更 新 并 不 能 保证 所 得 到 的 权 值 矩阵 是 二 值 化 的 。 
3) 第 三 步 : 二 值 化 权 值 矩阵 
Wel? = Binarize(W'*? ) = (Binarize(Wj* ) 21 
(8. 48) 
OED = Dinarize(g ^*^? ) = (Binarize(8j^? ) hy 


其 中 的 二 值 化 函数 使 用 确定 性 的 。 
完成 第 1 十 1 次 迭代 中 ,批量 p 1 的 更 新 后 ,依次 类 推 , 即 更 新 公式 如 下 : 
(WELD geri) = Update Wete? ote? Ni) (8. 49) 
其 中 的 p=1,2,…,P 一 1。 并 记 : 
weep = gye 
go» = gH 
这 样 便 完成 了 第 1 十 1 次 迭代 的 更 新 。 


8.2.3 讨论 


深度 二 值 化 神经 网 络 是 网 络 * 小 型 化 "探索 的 一 个 重要 方向 , 它 将 允许 把 此 前 只 能 在 服 
务 器 上 运行 的 深度 神经 网 络 转嫁 在 智能 手表 上 运行 ,比如 VGG-16 网 络 。 而 且 其 优化 有 着 


(8. 50) 


& 
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严格 的 数学 推导 与 更 新 算法 ,另外 该 网 络 的 核心 缺陷 在 于 随 着 层级 的 前 向 传播 , 隐 层 拓扑 结 
构 信息 损失 相对 传统 神经 网 络 较 大 。 针 对 深度 二 值 神经 网 络 的 缺陷 ,经 过 数学 上 的 理论 论 
证 ,提出 三 值 神 经 网 络 模型 (Ternary Weight Networks) * , 它 继 承 了 二 值 神 经 网 络 的 优点 同 
时 模型 的 表达 能 力 上 大 大 提升 ,另外 各 方面 指标 超过 了 实际 应 用 的 水 平 。 
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9.1 深度 循环 神经 网 络 


传统 的 深度 前 馈 神 经 网 络 在 分 类 目标 识别 等 任务 上 取得 了 出 色 的 表现 ,但 从 大 脑 的 生 
物 学 功能 角度 来 看 ,其 "仿生 ”所 建立 的 计算 模型 应 用 范围 仍 有 限 , 如 对 于 分 析 输 入 序列 ( 彼 
此 间 存 在 着 时 间 关 联 性 ) 之 间 的 整体 逻辑 特性 ,前 面 所 介绍 的 深度 (前 馈 ) 神 经 网 络 是 无 能 为 
力 的 。 本 节 将 介绍 的 循环 神经 网 络 ,不同 于 之 前 的 深度 神经 网 络 模型 ,通过 引入 ( 某 隐 层 ) 定 
向 循环 , 它 能 够 更 好 地 表征 高 维度 信息 的 整体 逻辑 特性 。 

备注 : 循环 神经 网 络 Recurrent Neural Networks, 递归 神经 网 络 Recursive Neural 
Networks ,通常 将 递归 神经 网 络 简写 为 RNN。 


9.1.1 循环 神经 网 络 的 生物 机 理 


在 前 馈 神 经 网 络 中 ,其 网 络 拓扑 结构 是 有 向 的 无 环 结构 , 即 连接 存在 于 层 与 层 之 间 ,每 
层 的 节点 之 间 是 不 连接 的 且 前 向 计算 时 ,层级 较 高 (靠近 输出 ) 的 隐 层 不 会 向 层级 较 低 (靠近 
输入 ) 的 隐 层 定向 传播 。 众 所 周知 ,大 脑 包含 数 亿 万 个 神经 元 ,而 这 些 神经 元 又 通过 百 万 亿 
个 突 触 进行 连接 ,尽管 揭 开 这 些 连 接 方式 看 似 是 不 可 能 完成 的 任务 ,但 2015 年 底 , 来 自 贝勒 
医学 院 的 研究 人 员 就 成 功 完成 了 这 项 任务 并 将 其 成 果 发 表 在 Science 杂志 上 ,其 成 果 的 核 
心 是 成 功 解析 了 小 鼠 大 脑 皮层 中 神经 元 的 连接 方式 ,并 发 现 大 脑 皮层 中 局 部 回路 的 基本 连 
线 可 以 通过 一 系列 的 互 连 规则 所 捕获 , 且 这 些 规 则 在 大 脑 皮层 中 处 于 不 断 循环 中 ,从 而 为 理 
解 局 部 大 脑 皮层 的 回路 连接 提供 了 一 定 思路 ,进一步 可 以 帮助 理解 大 脑 的 工作 原理 。 

循环 神经 网 络 通过 使 用 带 有 自 反馈 的 神经 元 ,能 够 处 理 任意 长 度 的 (存在 时 间 关 联 性 ) 
序列 ; 相 比 传统 的 深度 前 馈 神 经 网 络 , 它 更 加 符合 生物 神经 元 的 连接 方式 。 并 且 , 循 环 神经 
网 络 已 经 被 广泛 地 应 用 在 自然 语言 处 理 等 领域 ,取得 了 诸多 出 色 的 成 果 。 


9.1.2 简单 的 循环 神经 网 络 


下 面 给 出 一 个 简单 的 循环 神经 网 络 ( 即 Vanilla 循环 神经 网 络 ) 的 数学 物理 描述 ,网 络 
结构 如 图 9.1 所 示 。 


从 图 9. 1 可 以 看 出 ,循环 神经 网 络 类 似 一 个 动态 系统 ( 即 系统 的 状态 按照 一 定 的 规律 随 
时 间 变 化 的 系统 ) 。 
1. 数据 
(x, € R',y, € Rz (9.1) 


其 中 x, 表示 上 时 刻 的 输入 ,该 时 间 序列 的 长 度 为 T; 输出 y, 与 上 时 刻 之 前 (包括 上 时 刻 ) 的 
输入 有 关系 , 即 


关系 
(xx? 7x) — y. (9.2) 
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输入 : 输入 时 间 序列 





























图 9.1 Vanilla 循环 神经 网 络 
2. 模型 


0 一 V。s 十 cER" (9.3) 
y, = softmax(o,) € R" 
注意 这 里 的 Softmax 不 是 分 类 器 ,而 是 作为 激活 函数 ,即将 一 个 m HE T] ik HAE WIG — 1 m 
维 的 实数 向 量 , 其 中 向 量 中 的 每 个 元 素 取 值 都 介 于 (0,1) 之 间 。 即 


b. E 


Z 
Zi eso» 
其 中 Z 为 归 一 化 因子 。 另外 式 (9 3) 中 待 优 化 的 参数 包括 权 值 连接 U、W、V ,及 偏 置 b,c, 而 
oC * ) 为 隐 层 上 的 激活 函数 。 


3. 优化 目标 函数 


基于 关系 (9.2) 和 模型 (9. 3) ,利用 负 对 数 似 然 ( 即 交互 焙 ) 建 构 损 失 函 数 , 继 而 得 到 的 优 
化 目标 函数 为 : 


T 
minJ (0) = loss, y 


1=1 


k = o(U +x, +W ° sı +b) 


[ee peee ein o j? 


(9. 4) 


T m 
= »C[Ex«o “log($,(7)) + (1—y.()). loa — 5.4 |) (9.5) 
1 


其 中 y DH y, 的 第 7 个 元 素 ,参数 0 为 : 
0 = [U.V.W;b.c] (9. 6) 


4. 求解 
由 于 循环 神经 网 络 在 每 一 个 1(1 二 1,2,…,T) 时 刻 对 应 着 一 个 监督 信息 y,, 相 应 的 损失 
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项 简 记 为 : 

J,(0) = loss($,,y,) (9.7) 

关于 优化 目标 函数 , 即 式 (9.5) 的 求解 ,可 以 通过 时 间 反 向 传播 算法 实现 。 其 核心 是 如 下 五 
个 偏 导数 的 求解 : 

IJA IJ IJ IJO) IJ) 








9V ”ac ' OW” IU ' ab (9:8) 
其 中 前 两 项 偏 导 数 的 求解 ,依据 如 下 误差 传播 项 的 求解 : 
à, = Men (9.9) 


注意 6 是 : 时 刻 的 目标 函数 ( 式 (9.7)) 关 于 :时 刻 的 输出 o 的 偏 导数 。 后 面 三 项 偏 导数 的 
求解 , 则 根据 误差 传播 项 : 











8, = 2s (9. 10) 
解释 同上 ; 由 于 篇 幅 所 限 ,这 里 仅 给 出 目标 函数 关于 W 的 偏 导数 , 即 
OO _ Ya.) S y 28 2s , g (9.11) 


W imn W s s, SAM as, °° 
注意 ,由 于 隐 层 的 4 时 刻 输出 5, 与 之 前 的 输出 s (CA 一 1,2,…:'2 有 关系 , 即 见 模型 中 式 (9. 3) ,而 
参数 W 恰好 是 这 种 关系 的 内 蕴 。 其 中 依据 链 式 法 则 有 : 
LUE 9s; = | WW" - diagto Gs.» (9.12) 


ja jue 

SERB AY o^ C * 09g BE PBB oC e O W SC. 93 Sb. PR diag(。) 为 向 量 扩展 矩阵 , 即 形成 的 矩 
阵 以 向 量 为 对 角 元 素 。 

实验 中 , 式 (9.3) 中 隐 层 输出 中 的 激活 函数 C+) HEH Tanh(，) 函 数 ,在 训练 后 期 ， 
式 (9. 10) 和 式 (9. 12) 所 对 应 的 梯度 变 的 比较 小 ,进一步 , 连 乘 后 的 梯度 值 使 得 式 (9. 11) 变 的 
更 小 ,容易 出 现 梯 度 弥 散 现象 ; A oC + IR Sigmoid(。) 函 数 也 会 发 生 同 样 的 情形 。 常 用 避 
免 梯 度 弥散 的 技巧 包括 : 参数 初始 化 策略 ,以 及 使 用 ReLU 函数 作为 激活 函数 等 。 

注意 : 虽然 循环 神经 网 络 从 理论 上 可 以 建立 长 时 间 间 隔 的 状态 之 间 的 依赖 关系 ,但 由 
于 梯度 弥散 或 梯度 爆炸 ( 即 连 乘 后 的 梯度 值 趋 于 无 穷 大 ,造成 系统 不 稳定 ) 问 题 ,实际 应 用 
中 ,只 能 学 习 到 短 周期 (或 使 用 马尔 科 夫 链 ) 的 依赖 关系 ,这 便 是 所 谓 的 长 期 依赖 问题 。 后 面 
将 针对 此 问题 ,描述 长 短 时 记忆 网 络 。 


9.1.3 深度 循环 神经 网 络 的 数学 物理 描述 


深度 循环 神经 网 络 中 的 “深度 ”, 与 传统 的 深度 神经 网 络 不 同 , 它 指 时 间 和 空间 (如 网 络 
中 的 隐 层 个 数 ) 特 性 上 的 深度 ,其 设计 模式 包括 以 下 三 种 : 
m 每 个 “时 刻 ” 都 有 输出 ,并 且 隐 层 引 入 定向 循环 ,如 简单 循环 神经 网 络 , 见 图 9.1. 
m 每 个 "时 刻 ? 都 有 输出 , 且 该 时 刻 的 输出 到 下 一 时 刻 的 隐 层 之 间 有 循环 连接 , 见 图 9. 2。 
m 隐 层 之 间 存 在 着 循环 连接 ,但 输出 仅 出 现在 若干 个 时 刻 后 ,不 再 每 一 时 刻 都 对 应 着 
输出 , 见 图 9. 3。 
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图 9.3 深度 循环 神经 网 络 一 一 隐 层 间 定 向 循环 且 定 向 时 刻 输出 


值得 注意 的 是 : 传统 的 深度 神经 网 络 中 卷 积 神经 网 络 的 特点 是 局 部 连接 、 权 值 共享 和 
局 部 平移 不 变 特性 ,其 中 的 权 值 共享 意味 着 共享 计算 ; 而 循环 神经 网 络 中 随 着 “时 间 ” 深 度 
的 加 深 对 参数 实行 “平流 移植 来 实现 共享 计算 。 另 外 ,序列 中 时 间 特 性 的 依赖 关系 通常 会 
引起 长 期 依赖 问题 ( 即 记忆 能 力 受 限 ) 。 

前 面 的 简单 循环 神经 网 络 给 出 了 单 隐 层 结构 下 关于 时 间 特 性 的 模型 设计 ; 接 下 来 介绍 
带 有 空间 特性 的 循环 神经 网 络 , 即 通过 增加 隐 层 个 数 ,来 提升 网 络 的 表达 能 力 , 见 图 9. 4, 给 
出 常见 的 三 种 通过 增加 隐 层 和 定向 循环 的 深度 循环 神经 网 络 。 实 验 发 现 将 循环 神经 网 络 的 
隐 层 (状态 ) 设 为 多 层 的 好 处 在 于 表征 能 力 的 提升 ,但 需 注意 的 是 增加 深度 会 导致 优化 困难 ， 
从 而 使 得 模型 的 实际 效果 变 差 。 

另外 ,实际 应 用 中 ,根据 输入 与 输出 之 间 的 关系 ,常见 的 网 络 模型 大 致 可 分 为 如 下 5 类 ， 
即 图 9. 5 所 示 ,注意 这 里 的 输入 与 输出 为 向 量 或 矩阵 。 

m 一 对 一 的 方式 : 本 质 上 并 没有 使 用 循环 神经 网 络 (没有 定向 循环 ) ,其 应 用 场景 大 多 

为 图 像 分 类 。 
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图 9.4 深度 循环 神经 网 络 一 一 增加 隐 层 与 定向 循环 





-对 多 多 对 一 多 对 多 多 对 多 
B E BRR RNg 

i m MHA 
MI UNN 


图 9.5 深度 循环 神经 网 络 一 一 输入 与 输出 之 间 的 关系 
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m 一 对 多 的 方式 : 可 用 于 图 片 字 幕 的 生成 , 即 输入 为 图 片 , 输 出 为 一 段 文本 或 文字 


序列 。 
里 多 对 一 的 方式 : 常用 于 文本 生成 图 片 或 情感 分 析 ( 即 给 定 一 段 文本 ,将 其 分 为 积极 或 
消极 的 情感 ) 。 


里 左边 的 多 对 多 的 方式 : 常用 于 机 器 翻译 (即将 中 文 语句 翻译 为 英文 ) 。 

m 右边 的 多 对 多 的 方式 : 常用 于 视频 分 类 , 即 为 每 一 帧 打上 标签 或 标注 。 

备注 : 深度 循环 神经 网 络 常 被 用 于 自然 语言 处 理 , 以 期 挖掘 序列 间 的 逻辑 特性 及 潜在 
的 对 应 关系 . 基于 以 上 的 关系 ,可 以 架构 具有 多 隐 层 的 深度 循环 神经 网 络 。 

为 了 避免 深度 循环 神经 网 络 过 早 陷入 局 部 最 优 ,参数 初始 化 常 被 作为 一 种 有 效 的 策略 
以 用 来 抑制 梯度 弥散 现象 的 发 生 。 问 题 是 能 否 将 深度 堆栈 网 络 中 基于 自 编码 器 的 逐 层 学 习 
方式 移植 到 图 9. 4 中 这 些 深 度 循环 神经 网 络 中 ? 不 同 的 应 用 任务 对 应 着 不 同 的 初始 化 策 
略 。 下 面 基 于 受 限 玻 尔 兹 曼 机 的 循环 神经 网 络 . 简 要 地 给 出 一 种 初始 化 策略 ,如 图 9. 6 
所 示 。 
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图 9.6 基于 受 限 玻 尔 兹 曼 机 的 循环 神经 网 络 RNN-RBM 


1. 数据 (训练 数据 集 ) 
(v? ER ZL, (9.13) 
2. 模型 


网 络 模型 包括 两 部 分 ,一 部 分 是 时 间 循 环 受 限 玻 尔 兹 曼 机 , 即 Recurrent Temporal 
Restrict Boltzmann Machine, 简 记 为 RTRBM; 另 一 部 分 为 循环 神经 网 络 。 
1) RTRBM( 注 意 隐 层 引入 定向 循环 结构 ) 
首先 ,给 出 :一 1 时 刻 的 隐 层 输出 h“-? 到 下 一 时 刻 的 隐 层 和 可 视 层 的 状态 转移 关系 , 即 
bj =W, < h“ +5, 


(9. 14) 
b? —W, ho? +b, 


其 中 bi? 为 :+ 时刻 隐 层 的 状态 ,bs 为 上 时 刻 可 视 层 的 状态 ,另外 待 优化 的 参数 包括 权 值 参数 
CW, W. Fal hi EE Cb, ,b,) ,进一步 上 时 刻 的 隐 层 输出 为 (由 于 隐 层 引入 定向 循环 结构 ) : 
h? = oW e v® +B?) = oW * v? +W, * h"7? 十 及) (9. 15) 
其 中 的 W 为 受 限 玻 尔 兹 曼 机 所 求 出 的 权 值 连接 矩阵 。 
而 上 时刻 可 视 层 的 输出 为 : 


$0 — 6(b?) = o(W, +h" 4- b.) (9. 16) 
可 知 ,在 整个 RTRBM 部 分 , 待 优化 的 参数 为 : 
0 = [W.W, .W, .b, ,b,] (9.17) 


其 中 当 :一 1, 隐 层 的 输出 hn" PGR n. 
2) 循环 神经 网 络 
h? = oU - v? R -R HoN (9. 18) 


注意 该 部 分 /一 1 IO th 7" 可 利用 RTRBM 部 分 的 h*- 了 来 蔡 代 。 可 知 待 优化 
的 参数 为 : 
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9 = [U,R,b;] (9. 19) 


3. 优化 目标 函数 
XT RTRBM 部 分 的 优化 目标 函数 ,根据 式 (9. 16) 估 计 的 输出 和 式 (9. 13) 对 应 的 真实 
输入 ORI SE SR RTT: 


T" 
minJ (9) =+) SD vf? log f?) + (1 — vP log — ôP )] (9. 20) 


t=1 j=l 


注意 of? Fc WEZ v^ € R" 的 第 7 PIR. j— 1.2. ms 待 优化 的 参数 为 式 (9. 17)， 
这 一 步 仅 作为 参数 0 的 初始 化 。 
关于 循环 神经 网 络 部 分 ,利用 RTRBM 部 分 所 获取 的 数据 , 即 式 (9. 15) 和 式 (9. 16) ,得 
到 ( 通 近 ) 数 据 集 描述 , 即 
(99,40 (9. 21) 
再 利用 循环 神经 网 络 模型 , 即 式 (9. 18) ,将 其 中 的 v2® 利用 6 来 替代 ,类 似 之 前 简单 的 循环 


神经 网 络 的 分 析 , 需 要 注意 的 是 这 里 的 hP 为 RTRBM 部 分 由 公式 (9. 15) 得 到 的 ,而 ”为 
循环 神经 网 络 部 分 由 式 (9.18) 估 计 得 到 的 ,所 以 建立 如 下 的 优化 目标 函数 : 


T 
minJ (9) = > lossth? sh”) (9. 22) 
9 


这 一 步 仅 作为 参数 9 的 初始 化 。 
最 后 ,根据 RBM 可 知 , 该 网 络 的 中 心 为 可 视 化 层 ,其 他 层 与 可 视 层 之 间 的 关系 可 由 模 
型 部 分 获悉 。 综 上 ,整个 RNN-RBM 网 络 的 优化 目标 函数 为 : 
T. 
minJ (0,9) =— F X, log PC?) (9. 23) 


t=1 


其 中 PCv® ) EVI v? Jg fi HW 9 3 dl GE- S8 BB A 2 89 BL 0 EL bs R BO — BOD rH 
于 输入 是 时 间 相 关 的 序列 ,所 以 它 待 优化 的 参数 为 (0,3)。 这 一 部 分 可 视 为 RTRBM 和 循 
环 神 经 网 络 这 两 部 分 的 博弈 。 


4. 求解 

整体 优化 目标 函数 (9. 23) 关 于 参数 (0.9) 的 偏 导数 求解 可 参考 第 1 章 , 而 这 里 仅 给 出 简 
要 的 框架 (分 为 三 步 ) ,并 强调 参数 初始 化 的 策略 。 

CO 根据 循环 神经 网 络 参 数 9 初始 化 ,利用 式 (9. 18) 求 解 隐 层 的 输出 h® 。 


(2) 在 RTRBM 部 分 ,利用 h” (HRO ERAO MA v ,并 利用 式 (9. 16) 得 到 输入 
的 估计 3” ,再 利用 式 (9. 20) 更 新 参数 0。 

(3) 根据 RTRBM 部 分 所 获取 的 数据 , 即 式 (9. 21) ,基于 优化 目标 函数 来 更 新 循环 神经 
网 络 参数 9。 依 此 三 步 交 蔡 进 行 ,直至 整个 网 络 状 态 达到 平衡 。 
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m 9.2 深度 递归 神经 网 络 


可 以 看 出 ,与 链 式 结构 的 循环 神经 网 络 不 同 ,递归 神经 网 络 是 通过 带 有 树 状 相似 的 神经 
网 络 结构 来 递归 构造 复杂 的 深度 网 络 的 。 本 质 上 ,递归 神经 网 络 是 对 循环 神经 网 络 的 一 个 
有 效 扩展 ,但 由 于 二 者 的 构造 方式 不 同 , 所 以 具有 不 同类 型 的 计算 图 。 


9.2.1 简单 的 递归 神经 网 络 


递归 神经 网 络 由 Pollack 于 1990 年 引入 ,而 Bottou 于 2011 年 描述 了 这 类 网 络 的 潜在 
用 途 一 一 学 习 序 列 中 的 逻辑 推理 。 下 面 给 出 一 个 简单 的 递归 神经 网 络 结构 , 见 图 9.7。 

















输入 
图 9.7 简单 的 递归 神经 网 络 
1. 数据 
训练 数据 集 为 : 
IE An (9. 24) 
其 中 上 时刻 的 输入 有 : 
Xe = LP sat x (9. 25) 
需要 注意 的 是 xi? 并 不 一 定 是 标量 , 且 该 输入 序列 的 长 度 为 4。 
2. 模型 


依据 图 9.7, 可 以 给 出 输入 与 输出 之 间 的 关系 为 : 
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h = [h „h? ,hs kh ] 


r= pa] (9. 26) 
y = o(o) 
其 中 第 一 隐 层 h 中 每 一 个 “元 "有: 
h? = (V - x? +b) (9. 27) 
H.i—1.2.3,4; 第 二 隐 层 s 中 每 一 个 “元 "有: 
s? = g(U hi +W e nO? +0) (9. 28) 
A j=1.2; 最 后 输出 层 的 状态 有 : 
o=oU +s? +Wes® +d) (9. 29) 
注意 公式 中 出 现 的 参数 b,c,d 15978 f E oC * ) 为 激活 函数 。 
3. 优化 目标 函数 
根据 输入 与 输出 之 间 的 关系 ,对 于 每 一 时 刻 都 有 对 应 着 的 损失 , 即 
J,(0) = loss(¥ sy) (9, 30) 


Arp UA PR ica FH ZE HJ JE SX AA Hh RT A GE fit 8 c A PE ES 
数 为 : 


0 = (V.U.W.b.c.d) (9.31) 
在 数据 集 上 优化 目标 函数 为 : 
T 
min] (0) = EDIO +A + RO) (9. 32) 
= 
Hop RODOSIENJ S , BI : 
RO = | Vvli$-- IU £-d- Iwi: (9. 33) 
4. 求解 


与 循环 神经 网 络 一 致 ,递归 神经 网 络 也 利用 随机 梯度 的 方式 实现 参数 的 更 新 与 求解 ,这 
HAS BGR 


9.2.2 深度 递归 神经 网 络 的 优势 


深度 递归 神经 网 络 的 一 个 明显 优势 是 : 对 于 长 度 为 z 的 序列 ,深度 (通过 非 线性 操作 的 
组 合 数量 来 衡量 ) 可 以 急剧 地 从 下降 至 O(log(r)) .这 可 能 有 助 于 解决 长 期 依赖 问题 。 在 
实际 应 用 中 , 相 比 较 于 循环 神经 网 络 .递归 神经 网 络 通常 被 用 于 基于 词 嵌 入 的 短语 和 句子 的 
连续 表示 ,并 且 在 自然 场景 图 像 (图 9.8) 和 自然 语言 处 理 中 的 学 习 序列 和 树 结构 方面 (图 9. 9) 
取得 成 功 。 
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图 9.8 基于 深度 递归 神经 网 络 的 图 9.9 基于 深度 递归 神经 网 络 的 
自然 场景 图 像 剖析 自然 语言 句子 分 析 


9.3 长 短 时 记忆 神经 网 络 


已 知 (简单 的 ) 循环 神 经 网 络 的 核心 问题 是 随 着 时 间 间 隔 的 增加 ( 即 Long Term 
Dependencies) 容 易 出 现 梯 度 爆 炸 或 梯度 弥散 ,为 了 有 效 地 解决 这 一 问题 通常 引入 门限 机 制 
来 控制 信息 的 累积 速度 ,并 可 以 选择 遗忘 之 前 的 累积 信息 。 而 这 种 门限 机 制 下 的 循环 神经 
网 络 包括 长 短 时 记忆 神经 网 络 和 门限 循环 单元 网 络 。 这 里 将 重点 给 出 长 短 时 记忆 神经 网 络 


的 数学 分 析 。 
注意 : 长 短 时 记忆 神经 网 络 是 循环 神经 网 络 的 一 个 变 体 。 
9.3.1 改进 动机 分 析 


在 简单 的 循环 神经 网 络 中 ,从 式 (9. 11) 和 式 (9. 12) 中 知 , 若 定义 : 
5 一 WT diag(o'(s;.)) (9. 34) 
则 有 : 
TI (W* « diag(o’ (s,,))) — ¢"* (9.35) 


WR c fito || | 71. KAUDET ERK WRO. 35) 会 发 散 并 且 导 致 系统 出 
现 所 谓 的 梯度 爆炸 的 问题 ; 相反 ,车 LE || 到 1, 则 会 随 着 时 差 的 无 限 扩大 而 导致 梯度 弥散 的 
问题 。 

为 了 避免 梯度 爆炸 或 梯度 弥散 的 问题 ,核心 是 将 5 的 谱 半 径 设 为 EI =1, 不 失 一 般 
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性 ,车 将 W 设 为 单位 矩阵 ,同时 o^ Gs; i ) 的 谱 范 数 也 为 1, 即 模型 ( 即 式 (9. 3)) 隐 层 的 关系 退 & u 
化 为 : 
scu cs Mesa E i e Ux du (9. 36) 


但 这 样 的 形式 ,丢失 了 非 线性 激活 的 性 质 。 因 此 ,改进 后 的 方式 是 引入 一 个 新 的 状态 , 记 为 
ce 来 进行 信息 的 非 线性 传递 , 即 


c ca HU e z, 

















7 f= 

(9.37) | 9 ea a ča 

s, = tanh(c,) a Ed M 2: 

注意 这 里 的 非 线性 激活 函数 为 unh(。)。 ES o Ao 
注意 : 随 着 时 间 1 的 增加 ,c, 的 累积 量 将 会 T i 

变 得 越 来 越 大 ( 见 图 9. 100 ,为 了 解决 这 个 问题 ， is 

引入 了 门限 机 制 ,以 期 控制 信息 的 累积 速度 ,并 o o i i ae AUTEM 





可 以 选择 遗忘 部 分 之 前 累积 的 信息 
时 记忆 神经 网 络 。 


9.3.2 长 短 时 记忆 神经 网 络 的 数学 分 析 
基于 图 9. 10, 长 短 时 记忆 神经 网 络 的 核心 是 设计 这 个 新 状态 C, 以 期 控制 信息 的 变化 。 


这 便 是 长 短 





注意 ,图 9. 10 中 上 时 刻 的 输入 包括 三 个 , 即 xc Al s,s 输出 包括 两 个 , 即 c 和 s,; 长 短 
时 记忆 神经 网 络 的 结构 包括 以 下 两 点 : 
a 关于 状态 C, 通 过 遗忘 门 确定 c-; 有 多 少 成 分 保留 在 c, 中 ,以 及 通过 输入 门 确定 x, 
中 有 多 少 成 分 保留 在 c, 中 。 
mw 关于 状态 S ,输出 门 通 过 控制 单元 e 确定 输出 o 中 有 多 少 成 分 输出 到 s,。 


注意 网 络 的 核心 设计 包括 三 个 门 , 即 输入 门 .遗忘 门 和 输出 门 。 具 体 每 一 个 门 输入 、 门 
限 与 输出 的 数学 分 析 和 网 络 结构 如 图 9. 11 所 示 。 

















图 9.11 长 短 时 记忆 神经 网 络 的 标准 模块 
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1. 输入 门 


该 门 的 主要 目的 是 确定 输入 x, 中 有 多 少 成 分 保留 在 c, 中 ,实现 公式 为 : 


i, = o(U; ° x, HW; ° sa +V; ° cC) 
| (9. 38) 
€, = tanh(U, * x, +W. + S1) 


这 里 的 i 代表 “input”; 其 中 为 上 时刻 输入 门 的 输入 ,通过 输入 门 ,将 输入 中 对 应 的 c, 倍 保 
留 下 来 , 即 输入 门 过 后 ,保留 在 c, 中 的 成 分 为 i, BE, ,其 中 符号 “@ 表 示 对 应 向 量 中 对 应 元 素 
HR. 


2. 遗忘 门 


该 门 的 目的 是 确定 上 时刻 输入 中 的 c,-:; 有 多 少 成 分 保留 在 c 中 ,实现 公式 为 : 
f, = QU, + x FW, sa V, cr) (9. 39) 
这 里 的 /代表 “forget”; 这 个 公式 是 遗忘 门 的 门限 ,与 输入 门 的 门限 6, 一 样 , 即 通过 遗忘 门 
之 后 ,保留 在 e, 中 的 成 分 为 f, eus. 


3. 输出 门 


该 门 的 目的 是 利用 控制 单元 c 确定 输出 o, 中 有 多 少 成 分 输出 到 隐 层 s, 中 ; 首先 ,经 过 
输入 门 与 遗忘 门 之 后 的 状态 C, 即 e, 实现 公式 为 : 
c, =i, @, + fı Cr (9, 40) 
其 中 前 一 项 为 输入 门 后 保留 在 c, 中 的 成 分 ,后 一 项 是 遗忘 门 后 保留 在 c 中 的 成 分 。 其 次 ， 
为 了 确定 c, 有 和 多少 成 分 保留 在 s, 中 , 先 给 出 输出 的 实现 公式 为 : 





0, = o(U, + x, +W, * S1 HV. °c) (9.41) 
这 里 的 o, 为 : 时 刻 的 输出 层 上 的 状态 。 最 后 ,经 过 输出 门 ,保留 在 隐 层 上 的 成 分 为 ， 
h, = 0,@tanh(e,) (9. 42) 


综 上 所 述 , 随 着 时 间 的 变化 ,整个 网 络 的 结构 设计 流 图 见 图 9. 10, 目 前 该 网 络 已 被 成 功 
地 应 用 于 手写 识别 .语音 识别 、 机 器 翻译 、 图 像 或 新 闻 标 题 生成 与 解析 等 。 


9.4 典型 应 用 


深度 循环 和 递归 神经 网 络 在 自然 语言 处 理 领域 取得 了 诸多 显著 的 成 果 ,例如 情感 分 析 、 
机 器 翻译 和 问答 系统 等 ; 和 传统 方法 处 理 这 些 任 务 相 比 ,深度 循环 和 递归 神经 网 络 的 重要 
特点 是 用 向 量 表示 各 种 级 别 的 元 素 ,传统 方法 会 用 很 精细 的 方法 去 标注 ,而 深度 学 习 会 用 向 
量 表示 单词 短语、 人 逻辑 表达 式 和 句子 ,然后 通过 搭建 多 层 ( 引 入 定向 循环 ) 神 经 网 络 去 自主 


学 习 。 
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9.4.1 深度 循环 神经 网 络 的 应 用 举例 


深度 循环 神经 网 络 已 经 被 实践 证 明 对 自然 语言 处 理 是 非常 成 功 的 ,如 语句 合法 性 检查 、 
词 向 量 表达 、 词 性 标注 等 。 在 循环 神经 网 络 中 ,目前 使 用 最 广泛 、 最 成 功 的 模型 便 是 长 短 时 
记忆 神经 网 络 ,该 模型 通常 比 Vanilla 循环 神经 网 络 能 够 更 好 地 对 长 短 时 依赖 进行 表达 ,下 
面 针对 几 种 应 用 任务 做 以 下 简要 分 析 。 


1. 语言 模型 与 文本 生成 


给 你 一 个 单词 序列 ,需要 根据 前 面 的 单间 预测 其 后 每 一 个 单词 出 现 的 可 能 性 。 语 言 模 
型 能 够 预测 一 个 正确 语句 的 可 能 性 ,这 是 机 器 翻译 的 一 部 分 ,往往 可 能 性 越 大 ,语句 越 正确 。 
另 一 种 应 用 便 是 使 用 生成 模型 预测 下 一 个 单词 的 概率 ,从 而 生成 新 的 文本 根据 输出 概率 的 
采样 。 在 语言 模型 中 ,典型 的 输入 是 单词 序列 中 每 个 单词 的 词 向 量 ,输出 是 预测 的 单词 序 
列 。 当 对 网 络 进 行 训练 时 ,如 果 有 x+ 一 0 那么 :时刻 的 输出 便 是 下 一 时 刻 的 输入 。 为 了 
下 面 的 描述 ,首先 给 出 词 向 量 的 定义 。 

定义 ” 若 词 典 里 有 IV | 个 词 ,每 个 词 都 被 表示 成 一 个 1V| 维 的 向 量 , 设 某 个 词 在 字典 中 
相应 的 顺序 为 i, 则 向 量 中 i 的 位 置 上 为 1, 其 余 位 置 为 0。 

问题 描述 已 知 前 1 个 时 刻 (包括 14 时刻) 的 历史 数据 ,来 预测 1 十 1 时 刻 的 输出 数据 , 即 


Ei a (9. 43) 
构建 的 模型 如 下 : 
e, = LI») 
h, = o(W -h,_, +U * e +b) (9. 44) 


y, = softmax(V * h, +c) 
JB LD x0 EAE AS c 时刻 的 词 x, 通过 词典 D 作用 后 得 到 的 词 向 量 , 即 根据 词 向 量 的 定 
义 ,将 此 词 向 量 记 为 循环 神经 网 络 的 输入 ,其 中 y, 为 输出 ,其 对 应 的 物理 意义 为 预测 下 一 时 
刻 , 即 :十 1 时 刻 的 词 向 量 , 依 据 定义 , 便 可 以 得 到 x,;,。 待 优化 学 习 的 参数 为 U,W,V ,b,c。 
优化 目标 函数 为 : 


vi 
min] (0) 一 一 SI? log S?) (9. 45) 
Jp S3 0—[U.W.V b.c). A: 
y? —PGG;xa)-—779,]|x5755x,,1) (9. 46) 
即 在 [x xs ，,… ,x,] 已 知 的 情形 下 ,将 rs 所 对 应 的 词 向 量 工 (D,x+i) 预 测 为 词 字典 中 第 ; 
个 位 置 的 概率 。 求 解 仍 使 用 梯度 下 降 的 方式 ,这 里 不 再 著述 。 
备注 : 详细 请 参考 博客 http://www. jianshu. com/p/b4c5ff7c450f. 


2. 机 器 翻译 
机 器 翻译 是 将 一 种 源 语言 语句 变 成 意思 相同 的 另 一 种 源 语言 语句 ,如 将 英语 语句 变 成 
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同样 意思 的 中 文 语句 。 与 语言 模型 关键 的 区 别 在 于 : 需要 将 源 语言 语句 序列 输入 后 , 才 进 
行 输出 , 即 输出 第 一 个 单词 时 , 便 需 要 从 完整 的 输入 序列 中 进行 获取 。 这 里 仅 给 出 一 种 简单 
的 机 器 翻译 结构 图 ,如 图 9. 12 所 示 。 








这 里 需要 捕捉 整个 | 
美丽 的 日 出 输入 











图 9.12 基于 循环 神经 网 络 的 机 器 翻译 (从 中 文 到 英文 ) 


备注 : 任务 及 物理 解释 请 详细 参考 博客 http://www. jianshu. com/p/23b46605857e. 

3. 语音 识别 

语音 识别 是 指 给 一 段 声 波 的 声音 信号 ,预测 该 声波 对 应 的 某 种 指定 源 语言 的 语句 以 及 
该 语句 的 概率 值 。 

4. 图 像 描 述 生成 

和 卷 积 神经 网 络 一 样 ,循环 神经 网 络 已 经 在 对 无 标注 图 像 描述 自 动 生成 中 得 到 应 用 ,将 


卷 积 神经 网 络 与 循环 神经 网 络 结合 进行 图 像 描述 自动 生成 ; 该 组 合 模型 能 够 根据 图 像 的 特 
征 生成 描述 。 


9.4.2 深度 递归 神经 网 络 的 应 用 举例 


虽然 深度 循环 和 递归 神经 网 络 已 经 在 语音 和 图 像 处理 中 取得 重大 进展 ,然而 语言 与 请 
音 、 图 像 不 同 ,是 特殊 的 人 工 符号 系统 ,将 深度 学 习 的 方法 应 用 于 自然 语言 处 理 需 要 进行 更 
多 的 研究 和 探索 ,针对 特殊 任务 的 词汇 表达 的 学 习 以 及 词汇 之 间 关 系 的 探索 越 来 越 受 到 重 
视 ; 处 理 自然 语言 的 结构 化 输出 需要 更 为 复杂 的 循环 神经 网 络 ; 复杂 神经 网 络 又 对 高 效 和 
并 行 化 的 训练 算法 提出 了 新 的 要 求 。 随 着 可 用 的 训练 数据 越 来 越 多 ,计算 能 力 会 越 来 越 强 ， 
在 自然 语言 处 理 领域 ,深度 循环 神经 网 络 也 会 更 有 用 武之 地 。 
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10.1 深度 强化 学 习 简 介 


10.1.1 深度 强化 学 习 的 基本 思路 


深度 强化 学 习 将 深度 学 习 的 感知 能 力 和 强化 学 习 的 决策 能 力 相 结合 ,可 以 直接 根据 输 
和 人 的 图 像 进行 控制 ,是 一 种 更 接近 人 类 思维 方式 的 人 工 智 能 方法 。 众 所 周知 ,在 人 工 智能 领 
域 ,感知 、 认 知 和 决策 的 能 力 都 是 衡量 智能 的 指标 ,可 以 认为 : 深度 学 习 ( 深 度 神经 网 络 ) 是 
使 得 感知 能 力 得 到 进一步 提升 与 巨大 突破 的 核心 技术 ,同时 ,强化 学 习 的 学 习 机 制 表 明 它 是 
不 断 地 与 环境 交互 (可 以 看 作 决 策 系统 和 环境 的 博弈 ) ,以 试 错 的 学 习 方 式 得 到 最 优 策 略 , 是 
使 得 决策 能 力 持续 获取 收益 的 关键 技术 。 深 度 强 化 学 习 的 原理 框架 如 图 10. 1 所 示 。 








决策 
et 强化 学 习 


ce— | 里 提供 当前 状态 映射 到 相应 动作 
m 基于 预期 回报 奖惩 动作 的 价值 














图 10.1 深度 强化 学 习 的 框架 


另外 ,已 知 大 脑 的 信息 加 工 能 力 是 有 限 的 ,不 可 能 在 瞬间 进行 多 种 操作 ,为 了 顺利 地 加 
工大 量 的 信息 ,人 只 能 按照 一 定 的 策略 在 每 一 时 刻 选 择 特定 的 信息 进行 操作 ,并 将 整个 认 知 
(包括 感觉 ,知觉 .记忆 、` 思 维 、 想 象 . 言 语 等 ) 过 程 的 大 量 操 作 组 织 起 来 。 因 此 ,感知 ` 认 知 和 
决策 对 于 认 知 活动 的 有 效 进行 与 展开 是 十 分 重要 的 。 

备注 : 强化 学 习 是 受到 生物 能 够 有 效 适应 环境 的 启发 ,以 试 错 的 机 制 与 环境 进行 交 
互 ,通过 最 大 化 累积 奖赏 的 方式 来 学 习 最 优 策略 , 简 言 之 ,最 简单 的 理解 就 是 在 训练 的 过 
程 中 ,不 断 地 去 尝试 , 错 了 就 惩罚 ,对 了 就 奖励 ,由 此 训练 得 到 在 各 个 状态 环境 当中 最 好 
的 决策 ,例如 骑 车 的 过 程 , 种 瓜 的 过 程 等 。 具 体 地 ,可 以 参考 第 1. 3 节 关 于 强化 学 习 的 数 
学 分 析 。 


10.1.2 发 展 历 程 


谷歌 的 DeepMind 团队 在 Nature 杂志 上 发 表 的 两 篇 文章 (基于 视频 游戏 的 深度 强化 学 
习 算法 和 AlphaGo 围棋 程序 ) 使 得 深度 强化 学 习 成 为 高 级 人 工 智能 的 热点 。 在 此 之 前 ,已 
出 现 了 一 些 类 似 的 研究 工作 ,它们 的 主要 思路 是 利用 神经 网 络 将 复杂 高 维 的 数据 降 维 ,转化 
到 低 维特 征 空间 便于 强化 学 习 处 理 ,例如 Shibata 等 将 浅 层 神经 网 络 和 强化 学 习 结 合 起 来 
处 理 视觉 信号 的 输入 ,控制 机 器 人 完成 推 箱子 等 游戏 ; 又 如 Lange 等 人 提出 将 深度 自 编码 
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器 应 用 到 视觉 的 学 习 控制 中 ,提出 了 视觉 动作 学 习 , 使 智能 体 具 有 感知 和 决策 能 力 ; 随后 ， 
Abtahi 等 将 深度 置信 网 络 引入 到 强化 学 习 中 ,将 传统 的 值 函 数 利用 深度 置信 网 络 来 蔡 代 ， 
并 将 其 成 功 地 应 用 在 车 牌 图 像 的 字符 分 割 任务 上 ; 还 有 ,Lange 进一步 将 视觉 输入 的 强化 
学 习 应 用 到 车 辆 控制 中 ,该 框架 被 称 为 深度 拟 合 Q 学 习 ( 所 谓 Q 学 习 是 指 状态 -动作 值 函数 
学 习 )。 之 前 ,强化 学 习 不 能 实用 的 主要 原因 在 于 面 对 过 大 的 状态 或 者 行动 空间 ,很 难 有 效 
地 处 理 这 些 情形 。 深 度 学 习 的 出 现 能 够 去 处 理 这 些 情形 背后 的 真正 问题 ,如 ImageNet 数 
据 集 上 视觉 识别 准确 率 的 大 幅 提 高 , 即 topo 错误 率 下 降 到 4% 以 内, 深度 学 习 相 关 技术 已 
在 图 像 和 语音 识别 领域 变 得 比较 成 熟 并 且 已 被 广泛 商用 。 以 上 说 明 深 度 学 习 已 成 为 一 些 实 
际 应 用 的 基础 ,而 深度 强化 学 习 的 研究 及 应 用 也 基本 上 按照 上 面 的 思路 展开 。 下 面 简 要 给 
出 强化 学 习 和 深度 学 习 的 研究 历程 。 


1. 强化 学 习 简要 发 展 历程 


(1) 1956 年 Bellman 提出 了 动态 规划 方法 。 

(2) 1977 年 Werbos 提出 了 自 适 应 动态 规划 方法 。 

(3) 1988 年 Sutton 提出 了 TD 算法。 

(4) 1992 年 Watkins 提出 了 Q( 状 态 -动作 值 函 数 ) 学 习 算 法 。 

(5) 1999 年 Thrun 提出 了 部 分 可 观测 马尔 科 夫 决策 过 程 中 的 蒙特 卡 洛 方法 。 
(6) 2006 年 Kocsis 提出 了 置信 上 限 树 算法 。 

(7) 2014 年 Silver 等 提出 了 确定 性 策略 梯度 算法 。 


2. 深度 学 习 简 要 发 展 历程 


(1) 1974 年 Werbos 提出 了 BP 算法 。 

(2) 1986 年 Rumelhart 等 人 重新 发 明 BP 算法 ,BP 算法 的 实质 是 最 小 均 方 算法 的 
推广 。 

(3) 1995 年 和 1998 年 ,LeCun 和 Bengio 等 人 提出 并 改进 了 卷 积 神经 网 络 。 

(4) 2006 年 Hinton 提出 了 逐 层 预 训 练 方法 ,解决 梯度 弥散 问题 的 深度 置信 网 络 。 

(5) 2008 年 Vincent 等 提出 了 降 噪 自 编码 器 。 

(6) 2011 年 Rafir 等 提出 了 收缩 自 编码 器 。 

(7) 2012 年 Krizhebsky 提出 了 AlexNet 网 络 , 并 在 ImageNet 数据 集 上 取得 突破 。 

(8) 2014 年 Ian Goodfellow 提出 了 生成 式 对 抗 网 络 。 

(9) 2015 年 何 铠 明 等 提出 了 深度 残 差 网 络 。 

将 深度 学 习 与 强化 学 习 相 结合 ,已 在 理论 和 应 用 方面 取得 了 显著 的 成 果 , 特 别 是 谷歌 的 
DeepMind 团队 研发 的 围棋 程序 AlphaGo 及 其 升级 版 Master, 在 2016 年 以 4: 1 的 比分 战 
胜 九 段 围棋 选手 李 世 石 ,成 为 人 工 智能 历史 上 又 一 个 新 的 里 程 碑 。 另 外 深度 强化 学 习 在 博 
弈 均衡 求解 中 的 应 用 也 是 令 人 兴奋 的 方向 之 一 , 随 着 这 些 技术 的 细 化 和 深入 ,进一步 将 理论 
计算 机 和 更 为 实用 的 机 器 学 习 等 技术 之 间 的 鸿沟 缩小 。 随 着 理解 的 不 断 深入 ,将 会 发 现 深 
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度 强化 学 习 考 量 各 个 应 用 领域 有 趣 的 问题 并 放置 在 同一 个 框架 内 进行 思考 和 处 理 , 逐 步 探 
索 这 些 有 趣 的 问题 ,最 终 能 够 取得 满意 的 结果 ,从 而 实现 框架 和 模型 的 重要 性 在 于 可 以 将 抽 
象 的 概念 和 理论 转化 为 触手 可 及 的 经 验 。 


10.1.3 应 用 新 方向 


深度 强化 学 习 是 近 两 年 来 深度 学 习 领 域 迅 猛 发 展 起 来 的 一 个 分 支 ,其 目的 是 解决 计算 
机 从 感知 到 决策 控制 的 问题 ,从 而 实现 通用 人 工 智 能 (通用 人 工 智 能 是 要 创造 一 种 无 须 人 工 
编程 ,自学 习 解 决 各 种 问题 的 智能 体 ,最 终 实现 类 人 级 别 甚至 超人 级 别 的 智能 ,通用 的 人 工 
智能 见 图 10.2)。 目 前 ,以 谷歌 的 DeepMind 团队 为 首 ,深度 强 化 学 习 已 在 视频 ,游戏 .围棋 
和 机 器 人 等 领域 取得 了 突破 性 的 进展 ,例如 AlphaGo, 其 核心 在 于 使 用 了 深度 强化 学 习 , 使 
得 计算 机 能 够 通过 自 对 弈 的 方式 不 断 地 提升 棋艺 水 平 , 值 得 指出 的 是 从 感知 到 决策 , 端 到 端 
设计 模式 的 深度 强化 学 习 具 有 非常 广阔 的 应 用 前 景 , 它 的 发 展 将 进一步 推动 高 级 人 工 智 能 
的 革命 。 

其 中 智能 体 是 指 任何 独立 的 能 够 思想 并 可 以 同 环境 交互 的 实体 都 可 以 抽象 为 智能 体 ， 
这 里 特 指 以 深度 强化 学 习 为 核心 的 技术 框架 ,其 中 深度 学 习 用 来 提供 学 习 的 机 制 ,强化 学 习 
为 深度 学 习 提供 学 习 的 目标 。 目 前 ,以 深度 强化 学 习 为 核心 的 基本 框架 都 可 以 容纳 在 行动 
和 评判 模块 下 ,如 图 10.3 所 示 。 
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图 10.2 通过 人 工 智能 的 基本 框架 图 10.3 行动 -评判 框架 
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若 将 深度 强化 学 习 比 作 智 能 体 中 的 大 脑 ,那么 该 大 脑 包 括 两 个 模块 : 行动 模块 和 评判 
模块 ,其 中 行动 模块 是 大 脑 的 执行 机 构 , 通 过 输入 外 部 的 状态 *, 然 后 输出 动作 a, 而 评判 模 
块 则 可 以 认为 是 大 脑 的 价值 观 , 根 据 历史 的 信息 和 回馈 x 进行 更 新 , 即 自 我 调整 然后 影响 整 
个 行动 模块 。 注 意 人 类 也 是 在 自身 价值 和 本 能 的 指导 下 进行 行为 ,并 且 价 值 观 受 经 验 的 影 
响 不 断 改变 。 

fik: 在 行动 -评判 框架 下 ,谷歌 的 DeepMind 相继 提出 了 深度 Q 网 络 (DQN, 于 2013 
年 提出 ), A3C (Asynchronous Advantage Actor Critic, 于 2015 年 提出 ) 和 UNREAL 
(Unsupervised Reinforcement and Auxiliary Learning. F 2016 年 11 月 提出 ) 等 三 种 深度 强 
化 学 习 算法 。 

深度 强化 学 习 经 过 近 两 年 的 发 展 ,在 算法 层面 上 取得 了 越 来 越 好 的 效果 ,精妙 的 算法 设 
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10.2 深度 Q 网 络 


Q 学 习 是 1989 年 Watkins 提出 的 ,是 最 早 的 在 线 强化 学 习 算 法 ,同时 也 是 强化 学 习 最 
重要 的 算法 之 一 。 而 深度 Q 网 络 (Deep Q Network) 是 谷歌 的 DeepMind 于 2013 年 提出 的 
第 一 个 深度 强化 学 习 算 法 ,并 在 2015 年 进一步 完善 , 成果 发 表 在 Nature 杂志 上 。 
DeepMind 将 深度 Q 网 络 应 用 在 计算 机 玩 Atari 游戏 上 ,不 同 于 以 往 的 处 理 方式 , 仅 使 用 视 
频 信息 作为 输入 ,与 人 类 玩 游戏 一 样 。 注 意 : 符号 "Q” 表 示 在 某 一 状态 下 执行 某 一 操作 时 
所 获取 的 分 数 或 质量 。 


10.2.1 网 络 基本 模型 与 框架 


在 深度 Q 网 络 中 , 仅 用 值 网 络 来 表示 评判 模块 ,没有 使 用 行动 模块 ,因为 使 用 评判 模块 
即 可 选择 并 执行 最 优 的 动作 。 其 核心 思想 是 : 基于 值 网 络 ,可 以 遍历 某 个 状态 下 各 种 动作 
的 价值 ,然后 选择 价值 最 大 的 一 个 动作 输出 ,如 图 10.4 所 示 。 
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图 10.4 深度 Q 网 络 的 基本 框架 


注意 深度 Q 网 络 作为 深度 强化 学 习 的 第 一 个 算法 , 仅 使 用 价值 网 络 ,其 特点 是 训练 效 
率 低 并 且 只 能 面向 低 维 的 离散 控制 问题 ,换言之 ,通用 性 有 限 。 但 又 由 于 它 是 第 一 次 成 功 结 
合 深度 学 习 和 增强 学 习 , 解 决 了 高 维 数据 输入 问题 ,并 且 在 Atari 游戏 上 取得 重大 突破 , 具 
有 开创 性 的 意义 。 由 于 深度 卷 积 神经 网 络 在 图 像 处 理 领 域 有 着 天 然 的 优势 ,将 其 与 强化 学 
习 中 的 Q 学 习 相 结合 处 理 图 像 数据 的 感知 决策 任务 成 为 目前 的 主流 方向 之 一 ; 例如 采用 时 
间 上 相 邻 的 4 帧 游戏 画面 作为 原始 图 像 输 入 ,经 过 深度 卷 积 神经 网 络 处 理 , 网 络 的 输出 为 状 
态 和 行动 下 的 函数 值 , 实 现 端 到 端 方式 下 的 学 习 控 制 。 

fik. 斯 坦 福 大 学 在 线 Demo 展示 了 深度 Q 网 络 的 性 能 及 实现 ,参考 地 址 : http://es. 
stanford, edu/people/karpathy/convnetjs/demo/rldemo. html, 见 图 10. 5。 

注意 : 该 游戏 中 , 吃 到 绿色 的 (毒药 ) ,惩罚 得 负 分 ; 吃 到 红色 的 (苹果 ) ,奖赏 得 分 ; 根据 
速度 的 设置 , 它 具 有 超速 快速、 正常 和 慢 速 四 个 等 级 满足 不 同 状态 下 对 行为 的 反馈 。 
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图 10.5 基于 深度 强化 学 习 ( 卷 积 神经 网 络 十 Q 学 习 ) 实 现 游戏 


10.2.2 深度 Q 网 络 的 数学 分 析 


1l. Q 学 习 的 分 析 


通常 某 一 游戏 ,例如 象棋 、 围 棋 等 ,可 将 其 拆 分 为 一 系列 的 步骤 (最 后 一 步 为 胜 负 结果 )， 
其 中 每 一 步 都 包括 竞技 双方 根据 当前 自己 的 观测 所 做 的 行动 或 行为 ,同时 期 望 该 行为 所 带 
来 的 累积 奖赏 ( 即 该 行为 及 之 前 行为 的 奖赏 和 ) 优 于 对 方 ,为 自己 最 终 获胜 增添 筹码 。 如 何 
利用 数学 分 析 来 量化 这 一 过 程 ? 首先 ,必要 的 假设 为 : 游戏 中 每 一 步 所 对 应 的 观测 ,可 执行 
的 行动 或 行为 是 有 限 的 ; 不 可 能 仅 靠 当 前 这 一 步 的 观测 来 执行 某 一 行为 ,需要 充分 结合 该 
步 之 前 的 观测 和 行为 来 采取 行动 。 

为 了 下 面 描述 的 方便 ,给 出 几 个 名 词 描述 : 

a 符号 x,€R"* 为 游戏 进行 到 第 1(1==1,2,….T) 步 时 ,所 对 应 的 观测 (图 像 )。 

mFS wEA 为 观测 * 下 所 执行 的 动作 ,其 中 A 为 游戏 规则 下 合理 行动 集合 。 

m 符号 r, 为 观测 x, 下 执行 动作 a, 后 ,所 获取 的 奖赏 (或 惩罚 ) ,另外 : 

R= yy n (10. D 


Kp YE (0,1) 为 折扣 因子 ,这 里 的 R, 为 第 : 步 到 终止 时 刻 所 获取 的 累积 奖赏 和 。 
n 符号 Q(s,a) 为 状态 动作 值 函 数 ,其 中 1 时刻 的 状态 ; 为 : 
Sp = n.a 3t Kl Qi 9X) (10. 2) 
接 下 来 ,给 出 Q 学 习 的 主要 思路 , 即 根据 如 下 的 迭代 公式 实现 状态 动作 值 函数 的 优化 
262]; 
Qin G,.a,) = QiG «a o a, * & 
à,— r.a HY. maxQ, (sn ay —Q sa) 
其 中 a, 为 学 习 速率 ,另外 s, Ma, 分 别 为 第 t 步 所 对 应 的 状态 和 行动 ,6 为 时 间 差分 ,7 为 折 
扣 因 子 ,a 为 A 中 使 得 第 次 迭代 下 的 状态 动作 值 函数 在 s,41 下 可 执行 的 动作 。 已 经 证 明 


(10. 3) 
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当 式 (10. 3) 满 足以 下 两 个 条 件 时 ,一 是 : 


D<, Da = 十 co (10.4) 
二 是 所 有 的 状态 动作 都 能 被 无 限 次 地 遍历 , 则 有 : 
limQ, = Q* (10. 5) 


即 随 着 选 代 次 数 趋 于 无 穷 时 得 到 最 优 控制 策略 下 的 状态 动作 值 函数 ,类似 种 西瓜 任务 ,总 结 
出 了 一 套 从 播种 到 结果 其 中 每 一 个 状态 下 的 最 优 执行 策略 。 
最 后 ,依据 (Bellman equation) 上 面 的 描述 ,可 知 某 一 状态 下 选择 最 优 可 执行 动作 的 策 
略 , 便 是 最 大 化 如 下 期 望 值 : 
Q* (s,a) = Eyer + + maxQ" (s’,a’) | ssa) (10. 6) 
SEH E A FRE TAT DAR AS BEL EK, Ih s^ 分别 为 状态 执行 动作 a ZI AS sa 为 符 
合 游戏 规则 下 针对 状态 s 所 有 可 能 执行 的 动作 。 
注意 式 (10.6) 采 用 的 是 期 望 来 分 析 状 态 动 作 值 函 数 , 在 实际 应 用 中 , 常 使 用 函数 允 近 的 
策略 实现 状态 动作 值 函数 的 估计 , 即 
Qs;a,8) ~Q" Csa) (10.7) 
在 强化 学 习 中 oe HO i GE RA ER PEKI AIER PEKI C91 lr p £s II A0 EEE A 
数 为 0。 假 设 对 于 每 一 次 迭代 &,Q 网 络 通过 最 小 化 如 下 的 目标 函数 来 实现 参数 更 新 : 
Li(0.) = Eps Ly — QGsa50)* ] (10. 8) 
这 里 的 pC(，) 为 行为 分 布 , 即 p(s,a) 为 状态 s 和 行为 a 的 概率 分 布 ,另外 ys HE k 次 迭代 所 
对 应 的 目标 (输出 ), 且 有 : 
» = Eralrty- max Q(s' «a 30.1) | ssa] (10. 9) 
依据 式 (10. 8) RISK CIO. DA: 


minL1 C0) minL:(0:) minL,(0,) 
> 0 rare > 0, > = (10. 10) 


o 1 


即 依据 式 (10. 9), 在 参数 0, 已 知 的 前 提 下 ,可 以 得 到 目标 输出 yi, 青 通过 优化 目标 函数 
式 (10. 8) 更 新 参数 ,得 到 0. ,以 此 类 推 ,最 终 实 现 参数 的 收敛 , 即 





]imó. — f. (10. 11) 
其 中 对 于 式 (10. 8) 参 数 的 更 新 求解 采用 梯度 下 降 法 ,其 中 偏 导 数 为 : 
Ta LaO) = E pe~p rir. maxQ G' ,a’ 30,1 )—Q(G.a:0,0) * ?4,QG.a 500] 12) 


注意 这 里 参数 0, Fe TE 
2. 深度 Q 学 习 的 分 析 


目前 ,依托 大 量 训练 数据 集 而 成 功 的 深度 学 习 技 术 已 在 计算 机 视觉 和 语音 处 理 等 领域 
取得 诸多 突破 性 成 果 , 最 为 直观 的 结论 便 是 : 依赖 数据 中 的 先 验 知识 挖掘 统计 或 物理 特性 
的 特征 工程 (包括 特征 提取 与 体征 选择 ) 将 被 基于 深度 学 习 技术 下 的 特征 学 习 所 替代 。 

备注 : 特征 学 习 与 特征 工程 分 别 是 深度 学 习 和 机 器 学 习 下 挖掘 数据 中 所 殖 含 的 某 种 语 
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义 或 统计 特性 ,二 者 对 数据 的 规模 要 求 不 同 , 且 处 理 技术 中 蕴含 的 思想 也 不 一 样 。 

通常 Q 学 习 技 术 的 成 功 依赖 于 人 工 特 征 的 选取 ,进一步 ,智能 体 学 习 的 好 坏 严重 地 取 
决 于 特征 选取 的 质量 。 能 否 将 Q 学 习 中 的 人 工 特 征 提取 技术 替换 为 深度 学 习 下 的 特征 学 
习 , 如 基于 卷 积 神经 网 络 的 特征 学 习 ? 回答 是 肯定 的 ,这 便 是 深度 Q 学 习 的 动机 。 下 面 便 
简要 地 给 出 深度 Q 学 习 的 数学 分 析 , 首先 ,介绍 一 个 概念 , 即 经 验 回 放 (Experience 
Replay) , 它 存储 着 某 一 智能 体 ( 即 游戏 ) 在 任意 一 步 的 经 验 , 如 : 

€ = (soa Ti Sa) (10. 13) 

其 中 出 现 的 符号 与 Q 学 习 中 的 一 致 ,e 为 第 1 步 的 经 验 , 假 设 该 智能 体 结束 时 的 步 数 为 N， 
那么 经 验 回放 便 可 对 应 着 集合 : 


D = [ei ,es en] (10. 14) 
其 次 ,对 于 Q 学习 中 状态 动作 值 函数 改 为 : 
QG.a 0 ŽE Qc) a 0 (10. 15) 


这 里 p(。) 为 基于 深度 学 习 下 的 特征 学 习 , 注 意 两 点 ,一 是 这 里 的 参数 0 不仅 包含 之 前 
Q 学习 中 的 参数 ,而 且 还 有 深度 学 习 下 的 参数 ; 二 是 对 于 Q 学 习 中 的 第 : 步 状态 有 : 
Siti = Gs 5a, X1) (10. 16) 
其 中 % =[xe], 且 :一 1,2,…,T。 而 式 (10. 15) ,左边 对 应 QF F1 ARASH AN sob A 
对 应 深度 Q 学 习 下 的 ,其 "状态 ”输入 为 p(s), 即 此 时 的 经 验 回放 对 应 修正 为 : 
jeps [ai ,ez ,ev] 
(10,17) 
e, = CoG «a, rig Goa) 
再 次 ,优化 目标 函数 所 对 应 的 式 (10. 8) 和 期 望 输出 y, 对 应 的 式 (10. 90 ,其 中 的 状态 动作 值 
函数 的 输入 状态 s 应 修正 为 p(s)。 最 后 ,求解 仍 沿用 梯度 下 降 法 。 


10.3 ”应 用 举例 一 一 AlphaGo 


当前 ,基于 深度 强化 学 习 的 AlphaGo( 计 算 机 围棋 程序 ) 已 经 成 为 人 工 智能 领域 的 焦 
点 。 一 直 以 来 ,计算 机 围棋 被 认为 是 人 工 智 能 领域 的 一 大 挑战 ,本 质 上 是 因为 大 约 要 搜索 
b! 个 落 子 情况 序列 ,其 中 b 为 搜索 的 宽度 ( 即 当 前 局 面 在 哪里 落 子 ) ,d 为 搜索 的 深度 ( 即 当 
前 局 面 在 接 下 来 若干 步 之 后 的 对 弈 局 面 ) ,以 期 望 利 用 状态 动作 值 函数 来 评估 当前 棋局 和 落 
子 的 最 佳 位 置 。 与 象棋 等 具有 有 限 且 可 执行 的 搜索 空间 不 同 , 围 棋 的 计算 复杂 度 约 为 
2507? ,如 果 按照 现 有 的 计算 能 力 采 用 暴力 的 搜索 方式 是 不 能 解决 问题 的 。 早 期 的 计算 机 围 
棋 通 过 专家 系统 和 模糊 匹配 缩小 搜索 空间 ,减轻 计算 强度 ,但 由 于 计算 能 力 有 限 , 取 得 的 实 
际 效果 并 不 理想 。 近 些 年 , 随 着 深度 学 习 的 不 断 发 展 和 完善 ,基于 深度 强化 学 习 和 蒙特 卡 罗 
树 搜索 策略 的 计算 机 围棋 程序 AlphaGo 已 达到 人 类 顶尖 棋 手 的 水 准 ,其 核心 思路 是 通过 卷 
积 神经 网 络 来 构建 的 价值 网 络 和 策略 网 络 分 别 对 搜索 的 深度 和 宽度 进行 约 减 ,使 得 搜索 效 


率 大 幅度 提升 ,胜率 估算 也 更 加 精确 ,如 图 10.6 所 示 。 

图 10. 6 中 的 策略 网 络 将 当前 棋盘 状态 s 作为 输 
和 ,经 过 多 层 的 深度 卷 积 神经 网 络 输出 不 同 落 子 位 置 
的 概率 PCa L0 ,网 络 的 优化 训练 可 通过 监督 学 习 方式 
下 的 深度 强化 学 习 实 现 ; 价值 网 络 同样 使 用 深度 卷 积 
神经 网 络 ,输出 一 个 标量 值 Vo(s ) 来 预测 选择 落 子 位置 
时 的 累积 奖赏 ,注意 表示 当前 状态 * 在 执行 动作 a 
之 后 的 状态 ,另外 0 为 价值 网 络 的 参数 。 


10.3.1 AlphaGo 原理 分 析 
AlphaGo 操作 原理 流程 图 如 图 10. 7 所 示 。 
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图 10.6 策略 网 络 与 价值 网 络 一 一 从 
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图 10.7 AlphaGo 操作 原理 流程 图 


备注 : 该 原理 图 参考 链接 为 http://www. 
kddchina. org/ # /Content/alphago 

整体 上 ,AlphaGo 的 实现 包括 线 下 学 习 和 在 线 对 弈 ,其 中 线 下 学 习 包 括 三 个 阶段 ， 

第 一 阶段 : 核心 利用 大 量 专业 棋 手 的 棋谱 训练 两 个 网 络 , 即 策略 网 络 和 快速 走 棋 网 络 , 
其 中 策略 网 络 采用 深度 卷 积 神经 网 络 来 训练 学 习 。 

第 二 阶段 : 基于 强化 学 习 来 提升 策略 网 络 的 性 能 ,也 可 认为 是 围棋 程序 的 自我 对 弈 
学 习 。 
第 三 阶段 : 通过 大 量 的 自我 对 弈 ,实现 基于 深度 强化 学 习 的 价值 网 络 学 习 。 
另外 ,在 线 对 弈 包括 5 个 关键 的 步骤 : 
步 又 一 : 依据 当前 对 弈 盘面 进行 特征 提取 ,注意 这 里 并 不 使 用 深度 学 习 来 提取 特征 ,而 
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是 将 提取 后 的 特征 图 作为 深度 学 习 的 输入 。 
步骤 二 : 依据 策略 网 络 估计 棋盘 其 他 空地 的 落 子 概率 (搜索 范围 为 宽度 ) 。 
步骤 三 : 依据 落 子 的 概率 ,计算 此 处 往 下 发 展 的 权重 ,其 中 初始 值 为 落 子 概率 本 身 。 
步骤 四 : 利用 价值 网 络 和 快速 走 棋 网 络 分 别 判断 局 势 , 两 个 局 势 得 分 相 加 为 此 处 走 棋 
获胜 的 得 分 。 
步骤 五 : 利用 蒙特 卡 罗 树 搜索 展开 下 一 步 的 搜索 (搜索 范围 为 深度 ) ,并 更 新 权重 。 
目前 依据 网 络 原理 和 实战 经 验 可 知 ,AlphaGo 相对 人 类 的 优势 在 于 它 的 大 局 观 天 生 比 
人 强 得 多 ,因为 有 强大 的 计算 资源 保证 模拟 的 终局 数量 足够 ,策略 网 络 和 价值 网 络 剪 枝 又 保 
证 了 模拟 的 质量 。 但 是 ,AlphaGo 也 存在 以 下 三 方面 的 缺陷 : 
m 打动 问题 分 析 : AlphaGo 会 尽量 避免 打动 。 原 因 是 打 支 会 导致 后 续 算 法 变 得 异常 复 
杂 , 使 得 结果 充满 不 确定 性 。 
m 策略 网 络 存在 隐患 : 基于 历史 棋局 .自我 对 弈 的 强化 学 习 对 可 能 下 棋 的 点 做 出 概率 
判断 ,从 而 缩小 落 子 范围 。 但 通常 由 于 每 步 落 子 时 间 的 限制 ,导致 放弃 精确 搜索 ,可 
能 会 存在 将 某 些 重大 隐患 但 概率 较 小 的 落 子 位 置 忽 略 。 
w 价值 网 络 也 有 概率 隐患 : 价值 网 络 , 即 预 测 每 一 步 及 其 后 续 步 骤 构 成 的 赢 棋 概率 。 
同样 因为 预测 步骤 有 限 , 有 时 会 对 一 些 目前 可 行 性 较 小 .明显 对 自己 有 利 的 棋 之 后 
续 较 长 远 局 势 缺 乏 正确 判断 。 
总 之 ,针对 AlphaGo, 行 之 有 效 的 策略 便 是 打动 要 趁早 , 太 晚 了 将 导致 搜索 空间 变 小 ， 
即便 价值 网 络 失效 ,还 可 以 靠 快速 走 棋 网 络 来 弥补 。 开 劫 应 该 以 在 刚刚 进入 中 盘 时 期 为 好 ， 
并 且 保 持 长 时 间 不 消 动 , 最 好 在 盘面 上 能 同时 有 两 处 以 上 打动 。 


10.3.2 深度 强化 学 习性 能 分 析 


深度 强化 学 习 是 将 深度 学 习 和 强化 学 习 各 自 的 优势 进行 组 合 后 形成 的 一 种 接近 人 类 思 
维 方式 的 人 工 智能 方法 ,除了 将 深度 卷 积 神经 网 络 与 Q 学 习 结 合 得 到 深度 Q 网 络 外 ,还 有 
将 深度 递归 神经 网 络 和 Q 学 习 结合 形成 的 深度 递归 Q 网 络 ,主要 用 于 处 理 文本 游戏 ,其 中 
的 深度 递归 神经 网 络 可 以 将 文本 信息 映射 到 向 量 空 间 从 而 获取 游戏 状态 的 语义 信息 。 需 要 
指出 的 是 : 强化 学 习 的 本 质 为 一 马尔 科 夫 决策 过 程 , 它 与 机 器 学 习 中 的 监督 学 习 不 一 样 , 强 
化 学 习 不 给 定 输入 所 对 应 的 标注 ,而 是 给 出 一 个 回报 函数 , 即 决定 在 某 状 态 下 执行 某 动作 的 
风险 (有 可 能 是 好 的 结果 ,也 有 可 能 是 坏 的 结果 )。 然 而 ,强化 学 习性 能 的 优 劣 取决 于 人 工 特 
征 提 取 技 术 , 深 度 学 习 的 优势 恰好 可 以 弥补 此 短 板 。 目 前 ,主流 的 深度 强化 学 习 都 是 针对 离 
散 状态 和 动作 的 优化 问题 ,而 实际 应 用 中 状态 和 动作 常 是 连续 的 ,针对 连续 状态 和 动作 的 情 
形 研 究 较 少 ,从 而 也 限制 了 深度 强化 学 习 应 用 的 范围 。 应 该 清楚 地 看 到 ,深度 强化 学 习 所 带 
来 的 技术 变革 将 持续 在 我 们 今后 日 常生 活 中 产生 广泛 且 有 力 的 冲击 响应 ,如 智能 驾驶 、 智 能 
医疗 .个 人 手机 助手 .智能 机 器 人 和 无 人 航行 器 、 智 能 制造 等 。 
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深度 学 习 平台 
时 深度 神经 网 络 模型 复杂 、 训 练 数据 多 、 计 算 量 大 
n 超 参 数 多 、 需 反复 多 次 试验 
m 多 框架 、 大 规模 GPU 集群 
m 并 行进 代 算法 架构 
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11.1 Caffe 平台 


11.1.1 Caffe 平台 开发 环境 


Caffe 是 深度 学 习 框 架 之 一 ,基于 C++ 语言 编写 ,并 且 具 有 licensed BSD, 开放 源码 , 提 
供 了 面向 命令 行 ,Matlab 和 Python 接口 ,是 一 个 清晰 ,可 读 性 强 , 快 速 的 深度 学 习 框 架 。 作 
者 是 贾 扬 清 。 

Caffe 是 通过 Layer 来 完成 所 有 的 运算 的 。Caffe 定义 一 个 网 络 模型 ,模型 由 多 个 
Layer 层 组 成 ,从 数据 层 开 始 loss 层 结束 。Caffe 是 通过 四 维 的 Blob 数据 块 来 进行 数据 的 
存储 和 传递 的 ,存储 格式 有 HDF5、LMDB 和 LevelDB 三 种 格式 。 目 前 使 用 最 广泛 的 数据 
格式 是 LMDB,HDF5 主要 用 于 多 标签 分 类 。Caffe 之 所 以 成 为 受 欢迎 的 深度 学 习 框 架 之 
一 ,主要 有 以 下 优势 : 

m Caffe 代码 完全 开源 ,速度 快 ,支持 GPU 加 速 。 

m Caffe 自 带 有 一 系列 的 网 络 模型 ,如 AlexNet, VGG,SSD 等 ,可 以 应 用 在 多 个 研究 

领域 。 

m Caffe 代码 设计 具有 模块 化 \ 可 读 性 强 的 特点 ,便于 新 手 学 习 。 

m Caffe 具有 Python 和 Matlab 接口 ,灵活 性 强 。 

m Caffe 提供 了 一 整套 的 数据 处 理 流程 ,如 数据 预 处 理 、 训 练 , 测 试 、 精 调 。 

Caffe 一 般 使 用 Linux 系统 , Windows 版 的 Caffe 由 于 环境 配置 和 使 用 时 间 较 晚 的 问 
题 ,普及 度 不 如 Linux 版 本 。 本 实验 采用 Linux 版 本 。 安 装 Caffe 前 ,首先 需要 安装 一 些 依 
赖 工具 ,安装 依赖 库 的 时 候 可 能 会 失败 ,这 是 下 载 所 需 的 网 站 可 能 连接 不 上 ,请 耐心 等 待 。 
依赖 库 安装 成 功 后 ,接着 配置 开发 环境 ,为 了 达到 最 优 的 运行 速度 , 需 安 装 CUDA 和 
cuDNN ,并 配置 相应 的 环境 变量 ,前 边 所 有 的 步骤 安装 成 功 后 ,就 可 以 安装 Caffe 了 ,最 后 仍 
需要 配置 Caffe 的 环境 变量 并 编译 Caffe, 成 功 后 ,Caffe 就 安装 好 了 。 具 体 的 安装 步骤 可 以 
参考 Calle 官网 。 本 实验 的 Caffe 运行 环境 配置 如 下 : 

m 操作 系统 : Ubuntu 14. 04. 

m 显卡 : Quadro K2200/PCIe/SSE2, 

m CUDA 版 本 : cuda7. 0, 

m cuDNN 版 本 : cuDNN-v4. 0, 


11.1.2 AlexNet 神经 网 络 学 习 


在 图 像 识别 方面 , 卷 积 神经 网 络 (Convolutional Neural Networks,CNN) 是 一 个 非常 热 
门 的 研究 主题 。 最 新 的 研究 显示 深度 CNN 模型 在 图 像 的 特征 提取 和 表示 方面 ,取得 了 不 
错 的 进展 。 本 节 将 介绍 一 个 经 典 的 深度 学 习 模 型 一 一 AlexNet。 该 网 络 结构 是 2012 年 
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Alex 和 Hinton 参加 ILSVRC2012 比赛 中 所 提出 的 网 络 模型 ,数据 集 是 InageNet。 这 是 
CNN 在 ImageNet 图 像 分 类 上 的 经 典 模型 ,之 后 的 VGG 模型 和 CaffeNet 都 是 在 AlexNet 
基础 上 改进 的 。 该 神经 网 络 模型 网 络 参 数 庞 大 ,为 了 加 快 训练 速度 ,使 用 了 双 GPU 来 处 理 
卷 积 、 池 化 运算 ,为 了 减少 过 拟 合 ,全 连接 层 后 加 了 Dropout 层 , 起 到 了 很 好 的 效果 。 在 
ILSVRC2012 大 赛 中 ,top5 测试 误差 率 为 15.3%, 取 得 了 第 一 名 的 好 成 绩 。 该 网 络 是 一 个 8 
层 的 卷 积 神经 网 络 , 由 五 个 卷 积 层 和 三 个 全 连接 层 一 个 softmax 损失 层 组 成 。 因 为 该 网 络 
的 结构 深 、 参 数 多 ,所 以 和 传统 的 CNN 相 比 ,可 以 得 到 更 多 的 特征 表达 能 力 。 具 体 的 模型 
参数 训练 如 下 : 

图 像 输入 大 小 为 227X227X3, 第 一 个 卷 积 层 滤 波 器 的 参数 为 96X11X11X3, 滤 波 器 
的 个 数 为 96 ,大 小 为 11X11X3, 步 长 为 4, 卷 积 后 的 特征 map 的 个 数 为 48。 第 一 个 卷 积 层 
的 ReLU, 局 部 归 一 化 、 池 化 后 的 输出 作为 第 二 个 卷 积 层 的 输入 ,第 二 个 卷 积 层 卷 积 核 的 参 
数 设置 为 256X5X5X48, 第 三 个 卷 积 层 到 第 五 个 卷 积 层 之 间 直 接连 接 , 这 三 个 卷 积 层 之 间 
没有 ReLU 和 池 化 。 第 五 个 卷 积 层 进行 ReLU, 池 化 后 连接 到 第 一 个 全 连接 层 ,共有 4096 
个 节点 ,第 一 个 全 连接 层 ReLU,dropout 后 输入 到 第 二 个 全 连接 层 ,以 此 类 推 ,连接 到 第 三 
个 全 连接 层 ,最 后 输入 到 softmax 损失 层 , 输 出 结果 ,每 一 层 的 具体 的 特征 map 数 为 3-96- 
256-384-384-256-4090-4096-1000。 

本 模型 采用 ReLU( 非 线性 激活 函数 ) ,其 数学 表达 式 如 下 : 

ReLU(x) = max(0.x) oy 
sigmoid 激活 函数 的 数学 表达 式 如 下 : 
1 

ie 





sigmoid(x) = (11.2) 


把 输入 的 连续 值 归 一 化 到 0—1 之 间 。 
另外 ,tanh 的 数学 表达 式 如 下 : 


ri ee 
tanh(z) ete 


ReLU 和 sigmoid, tanh 函数 相 比 ,数学 公式 简单 ,只 有 一 个 阔 值 0, 因 此 ,计算 速度 快 ,没有 
梯度 弥散 的 现象 发 生 , 而 且 在 使 用 随机 梯度 下 降 法 优化 网 络 时 ,收敛 比较 快 。 

接 下 来 ,使 用 两 个 GPU 来 训练 网 络 模型 ,一块 简单 的 GTX580 GPU 只 有 3GB 的 内 存 ， 
120 万 个 训练 样本 ,一 个 GPU 显然 是 不 够 的 。 因 此 ,使 用 两 个 GPU 来 传递 网 络 参 数 。 目 前 
的 GPU 适合 跨 GPU 并 行 化 ,它们 能 够 不 经 过 主机 内 存 直接 读 取 和 写 人 彼此 的 内 存 。 该 并 
行 化 方案 基本 上 将 一 半 的 神经 元 放 在 每 个 GPU 上 ,并 且 GPU 只 在 某 些 层 中 通信 。 例 如 ， 
第 二 层 的 输出 输入 到 第 三 层 中 ,然而 ,第 四 层 的 神经 元 仅 从 位 于 同一 GPU 上 的 第 三 层 中 的 
神经 元 映射 获取 输入 。 使 用 两 个 GPU ,与 在 一 个 GPU 上 训练 的 每 一 个 卷 积 层 中 一 半 的 神 
经 元 相 比 ,该 方案 将 前 1 和 前 5 的 错误 率 分 别 减少 了 1.7% 和 1.2%。 双 GPU 比 单 GPU 网 
络 需要 更 少 的 时 间 运 行 。 

本 模型 使 用 了 局 部 线性 归 一 化 ,ReLU 激活 函数 具有 不 需要 输入 归 一 化 来 防止 它们 饱 
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和 的 特性 。 然 而 我 们 仍然 发 现 以 下 局 部 归 一 化 方案 更 具有 普遍 性 。 线 性 归 一 化 公式 如 下 : 
By a 28 
(: ta M a) 


j=max(0,i—n/2) 


公式 中 ah, RATE Gc y) Ab GEE SASS JC 9 CIR E 04, BR A — fe D BT IE SR Jn 
再 通过 ReLU 激活 函数 ,得 到 激活 后 的 值 。N 表示 层 中 核 的 数量 ,常数 a,B,k,n 是 超 参数 ， 
般 设置 为 a 二 10-,B 二 0.75,k 二 2,n 二 5。 这 一 策略 可 以 降低 topl 和 top5 的 误差 率 。 

FRR H T EA Pooling, CNN 中 的 池 化 层 往往 在 卷 积 层 之 后 ,用 来 降低 卷 积 层 输出 
的 特征 ,防止 过 拟 合 。 池 化 通常 有 平均 池 化 和 最 大 池 化 两 种 。 传 统 CNN 模型 , 池 化 的 相 邻 
区 域 是 不 重要 的 。 本 模型 的 池 化 选用 的 是 池 化 区 域 重要 的 最 大 池 化 。 假 设 卷 积 后 的 特征 图 
是 由 一 个 单元 网 格 组 成 , 池 化 半径 为 ,如 果 相 邻 池 化 单元 的 中 心 位 置 的 距离 大 于 ,就 为 传 
统 CNN 的 不 重 又 池 化 ,如 果 相 邻 池 化 单元 的 中 心 位 置 的 距离 小 于 n, 就 是 本 模型 中 提 到 的 
MBM. MAE He A LL. EAK topl 和 top5 的 误差 率 降低 了 0.4% 和 0.3%， 
MABAWLAADUWE 

该 神经 网 络 的 参数 大 约 有 6000 万 ,要 学 习 这 么 多 参数 ,很 容易 出 现 过 拟 合 的 情况 , 接 下 
来 介绍 两 种 减少 过 拟 合 的 方法 : 数据 扩充 : 减少 数据 最 常用 的 方法 就 是 增加 数据 量 ,可 
以 在 有 限 的 训练 样本 的 基础 上 ,对 数据 进行 镜像 处 理 。 例 如 我 们 把 一 张 图 切 成 5 张 小 图 , 然 
后 对 其 进行 水 平反 射 ,就 可 以 得 到 10 张 小 图 ,数据 扩充 了 一 倍 。 或 者 ,我 们 还 可 以 对 数据 进 
行 水 平 翻转 、 垂 直 翻 转 、 平 移 、 添 加 噪声 等 方法 来 增加 数据 量 , 减 少 过 拟 合 。@Dropout: 
Dropout 就 是 以 一 定 的 概率 ,使 一 部 分 神经 元 激活 , 另 一 部 分 神经 元 抑制 ,概率 属于 超 参 数 ， 
由 自己 设 定 ,通常 情况 下 将 概率 设 为 0.5, 目 的 就 是 为 了 使 网 络 结构 稀 朴 化 ,降低 网 络 的 复 
ABE , 它 既 不 参与 前 向 传播 ,也 不 参与 反 向 传播 。 每 一 次 层 与 层 之 间 的 信息 传递 都 是 不 一 样 
的 神经 元 结构 ,参与 信息 传递 的 神经 元 的 个 数 是 固定 的 。 通 常 Dropout 层 是 在 全 连接 层 的 
后 边 , 减 少 网 络 参数 ,防止 过 拟 合 。 但 是 ,Dropout 会 增加 收敛 所 需 的 迭代 次 数 。 

CD 模型 的 优化 ,求解 : 

优化 目标 函数 : Softmax withloss, 计 算 公 式 如 下 : 








(11.4) 











e 





1.5) 


a; = 


Xe 
j=l 
LW) —— J log(a;) (11.6) 
gmt 
(2) 求解 方法 : SGD( 随 机 梯度 下 降 法 ) ,计算 公式 如 下 : 
V, = p+ V, —B* ?LOVO (1. 7) 
W =W, +V, (1.8) 


其 中 8 是 负 梯 度 学 习 率 ,w 是 上 一 次 梯度 值 的 权重 。 


11.1.3 AlexNet 神经 网 络 应 用 于 图 像 分 类 
本 节 将 介绍 AlexNet 网 络 在 自然 图 像 分 类 中 的 应 用 。 应 用 案例 为 花卉 分 类 。 该 数据 
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QO n4 
Ug 集 是 在 官网 上 下 载 的 ,一 共有 图 片 1360 张 ,图 片 大 小 不 同 ,有 17 类 ,每 一 类 有 80 张 图 片 。 
È 图 片 类 别 的 具体 介绍 可 参见 其 官网 。 官 网 链接 如 下 : http://www. robots. ox. ac. uk/~ 
vgg/data/flowers/17/index. html. 
本 实验 从 1360 张 图 片 中 每 类 随机 选取 80% 作 为 训练 样本 ,剩余 的 20% 作 为 测试 样本 。 
具体 可 以 参见 官网 ,部 分 样本 如 图 11.1 所 示 。 





(c) 





(d) 














图 11.1 花卉 数据 集 


网 络 部 分 超 参数 设置 如 下 : # 测 试 块 大 小 为 50 ,训练 块 大 小 为 100。 

test iter—5 — £ WAIE 5 次 ,可 以 覆盖 所 有 的 测试 集 。 

test interval; 1000 井 训练 每 迭代 1000 次 ,进行 一 次 测试 。 

base lr: 0.001 # 学 习 策略 : step( 均 匀 分 布 策略 ) 。 

lr polocy: "step". 

gamma; 0.1, 

stepsize: 5000, 

momentum; 0.9 # 网 络 的 权重 衰减 和 动量 。 

weight decay: 0.0005, 

max iter; 20000 # 最 大 和 迭代 数 。 

snapshot: 5000 # f 5000 次 迭代 打印 一 次 快照 。 

snapshot prefix: "/home/Downloads/Caffe/examples/flower/models/ AlexNet”。 
solver mode; GPU # Caffe RIRH GPU. 

实验 结果 展示 如 图 11.2 所 示 。 

测试 过 程 中 的 损失 函数 和 准确 率 与 迭代 次 数 的 关系 如 图 11. 3 和 图 11.4 所 示 。 
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10108 16:10:64.467985 27603 solver.cpp:454] Snapshotting to binary proto file /h 
[gaollt/Downloads /caffe/exanples/flower /models/caffe alexnet train iter 1008] 
caffenodel 
10108 16:10:68.217989 27603 sgd_solver.cpp:273] Snapshotting solver state to bin] 
lary proto file /hone/gaoltlt/Downloads /caffe/exanples/ flower /nodels/caffe_alexne| 
t train iter 18660.solverstate 
16:10:68.985S85 27663 solver.cpp:337] Iteration 10008, Testing net (#9) 
16:10:10.174505 27603 solver.cpp:404] Test net output #0: accuracy = 6 


16:10:10.174651 27603 solver.cpp:404] Test net output #1: loss = 1.811 
1 = 1.81134 Loss) 
16:18:11.471616 27683 solver.cpp:228) Iteration 10000, loss = 6.00106658 
16:10:11.471730 27683 solver.cpp:244] Train net output #6: loss = 0.09] 
= 6.00106659 loss) 
:11.471765 27603 sgd_solver.cpp:106] Iteration 10000, lr = le-65 
108 16:12:53.242408 27663 solver.cpp:228] Iteration 10100, loss = 6.006390353 
108 16:12:53.243039 27603 solver.cpp:244] Train net output #9: loss = 0.00 
0390365 (* 1 = 0.000390365 loss) 
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测试 损失 与 迭代 次 数 的 关系 
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11.2 TensorFlow 平台 


11.2.1  TensorFlow 平台 开发 环境 


TensorFlow 是 Google 公司 在 2015 年 底 发 布 的 开源 人 工 智 能 系统 。 该 系统 此 前 一 直 
是 Google 公司 的 内 部 机 器 学 习 系 统 ,该 系统 的 开源 极 大 地 方便 了 广大 机 器 学 习 研 究 工 作者 
的 科研 工作 。TensorFlow 架构 灵活 ,很 多 平台 上 都 可 以 使 用 ,支持 一 个 或 多 个 CPU, RA 
一 个 或 多 个 GPU、 服 务 器 移动 设备 等 。 而 且 目 前 vo. 8 版 本 已 经 支持 分 布 式 计算 ( 即 云 
计算 )。 
TensorFlow 是 一 个 采用 数据 流 图 ,由 “节点 ”和 “ 线 ” 组 成 来 进行 数学 计算 的 开源 软件 
库 。 一 个 图 中 的 每 一 个 节点 表示 一 个 数学 操作 ,每 一 条 线 表示 节点 之 间 的 输入 、 输 出 关系 。 
节点 之 间 流 通 的 是 数据 ,这 些 数据 用 “ 张 量 ”(tensor) 这 种 数据 结构 表示 ,用 线 来 进行 运输 。 
而 至 于 “ 张 量 ”, 我 们 则 可 以 想象 成 Python 语言 里 的 一 个 N 维 的 数组 或 者 列表 。 每 一 个 节 
点 即 操作 ,首先 会 获得 零 个 或 多 个 张 量 ,然后 执行 操作 ,再 产生 零 个 或 多 个 张 量 。 一 个 
TensorFlow 图 描述 了 数学 计算 任务 的 过 程 。 而 在 执行 计算 的 时 候 ,需要 将 图 在 “会 话 ” 
(session) 中 启动 。 在 TensorFlow 上 进行 开发 编程 的 常规 流程 就 是 : 首先 创建 一 个 图 ,然后 
f" i Hp ARES 
TensorFlow 还 能 可 视 化 学 习 。 在 TensorFlow 发 布 包 中 有 一 套 叫 做 TensorBoard 的 
可 视 化 工具 , 它 可 以 用 来 可 视 化 TensorFlow 计算 任务 中 的 数据 流 图 (Graph) 定量 指标 图 和 附 
加 数据 。 图 11.5 是 11. 2. 3 节 中 Mnist 手写 体 数据 集 实 验 中 的 可 视 化 结果 。TensorFlow 
有 很 多 优点 : 
m 高 度 的 灵活 性 ,TensorFlow 并 不 是 一 个 严格 的 深度 学 习 框 架 范围 内 的 开发 系统 , 任 
何 可 以 转化 为 数据 流 图 形式 的 计算 都 可 以 被 使 用 。TensorFlow 也 是 一 个 很 底层 的 
框架 ,可 以 根据 需要 在 TensorFlow 上 开发 上 层 的 库 。 
= 可 移植 性 好 ,TensorFlow 可 以 在 CPU 和 GPU 上 运行 ,不 管 是 台式 机 、 笔 记 本 ,还 是 
移动 设备 , 不管 是 将 模型 作为 云端 服务 ,还 是 将 其 运行 在 Docker 容器 里 ， 
TensorFlow 都 能 满足 需求 。 
m 能 自动 求 微分 ,因为 机 器 学 习 中 很 多 基于 梯度 的 算法 ,而 TensorFlow 能 自动 为 用 户 
计算 相关 的 导数 。 
支持 多 种 开发 语言 .现在 主要 支持 Python 和 C++ ,并 且 有 合理 易 用 的 界面 。 
最 优化 性 能 ,TensorFlow 对 队列 线程 .异步 操作 等 有 最 佳 的 处 理 , 不 管用 户 有 多 优 
秀 的 硬件 , TensorFlow 都 能 将 硬件 的 性 能 发 挥 出 来 。 
m 科研 与 产品 都 支持 的 系统 。 
TensorFlow( 其 界面 如 图 11. 5 所 示 ) 一 般 都 是 在 UNIX 内 核 环境 下 运行 ,如 Linux 操 
TERS. 虽然 利 用 Docker 也 可 以 将 其 运用 于 Windows 上 ,但 是 会 出 现 很 多 问题 。 目 前 社 
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图 11.5 TensorBoard 界面 


区 主要 推荐 的 Linux 版 本 Ubuntu 14. 04 ,因为 TensorFlow 主要 还 是 基于 Python 2 的 。 而 
更 高 版 本 的 Ubuntu 16 默认 都 是 Python 3。 本 章 实验 都 是 在 Ubuntu 14. 04 版 本 的 操作 系 
统 下 进行 的 。TensorFlow 所 支持 的 开发 语言 主要 有 Python 和 C++ ,但 使 用 广泛 和 支持 最 
好 的 还 是 Python 语言 ,因此 ,本 章 实验 的 开发 语言 都 是 Python 语言 。Python 是 一 种 高 级 
语言 ,用 其 编写 代码 十 分 简洁 ,但 由 于 相 比 C++ 这 种 底层 语言 ,Python 简洁 易 用 ,所 以 速度 
会 比较 慢 。TensorFlow 的 安装 方法 在 其 官网 上 也 有 列 出 ,目前 有 三 种 安装 方法 。 本 章 实验 
TensorFlow 安装 环境 的 CUDA 版 本 为 7.5,cuDNN 版 本 为 7.0。 


11.2.2 深度 卷 积 生 成 式 对 抗 网 DCGAN 


本 节 主 要 介绍 2015 年 Radford A 等 人 在 Computer Science. 上 发 表 的 论文 Unsupervised 
representation learning with deep convolutional generative adversarial networks 中 提出 的 
深度 卷 积 生成 式 对 抗 网 (Deep Convolution GAN. X P 4i 5 Jj DCGAN, 现在 通用 缩写 
DAN-Convolutions) ,在 TensorFlow 平台 上 有 相关 实现 代码 。DAN 结合 有 监督 学 习 的 
CNN 和 无 监督 学 习 的 GAN ,能 够 进行 无 监督 表征 学 习 , 训 练 好 的 生成 器 和 判别 器 的 隐 含 层 
都 可 以 对 图 像 进 行 特征 表示 。DAN 的 结构 是 在 原始 GAN 的 基础 上 ,将 生成 器 和 判别 器 的 
隐 含 层 全 部 用 卷 积 层 实现 。 虽 然 GAN 本 身 训练 不 需要 特定 的 启发 式 损失 函数 ,优化 过 程 
是 一 个 “二 元 极 大 极 小 博弈 ?问题 ,但 是 GAN 本 身 训 练 十 分 不 稳定 。 本 文 作 者 根据 自己 在 
CNN 领域 的 工程 经 验 , 提 出 和 评估 了 一 系列 约束 使 得 网 络 在 训练 中 稳定 。 其 模型 的 方法 和 
核心 主要 有 : 

n 用 生成 器 的 带 步 长 卷 积 (strided convolutions) 蔡 换 所 有 池 化 层 。 

m 用 判别 器 的 微 步 卷 积 (fractional strided convolutions) 蔡 换 所 有 池 化 层 。 
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m 在 生成 器 和 判别 器 上 都 使 用 批 标准 化 (batch normalization) ,这 个 策略 能 有 效 地 解决 初 
始 化 不 当 会 引起 训练 崩溃 的 问题 ,但 如 果 将 批 标准 化 应 用 于 所 有 层 又 会 引起 模型 的 不 
稳定 ,所 以 采取 的 措施 为 在 生成 器 的 输出 层 和 判别 器 的 输入 层 不 使 用 批 标准 化 。 
m 删除 深度 网 络 中 的 全 连接 层 ,论文 中 提 到 ,原始 CNN 中 一 般 使 用 的 全 局 池 化 (global 
pooling) ,这 样 虽然 可 以 增加 模型 的 稳定 性 ,但 是 网 络 的 收敛 速度 会 降低 。 
" 生成 器 中 输出 层 用 Tanh 激活 函数 ,其 他 所 有 层 用 ReLU 激活 函数 。 
" 判别 器 中 所 有 层 的 激活 函数 都 用 Leaky ReLU。 
具体 网 络 模型 如 图 11. 6 所 示 。 对 于 生成 器 G, 输 入 为 100 维 的 均匀 噪声 ,第 一 层 为 全 
连接 层 , 将 100 维 的 向 量 投影 成 4X4 大 小 的 feature map, 通 道 数 为 512。 然 后 依次 用 四 层 
步 长 为 5X5 的 带 步 长 卷 积 ,这 样 使 得 每 次 卷 积 后 图 像 尺 寸 加 倍 , 通 道 数 减 半 。 最 后 转换 为 
64X 64 大 小 的 RGB 三 通道 图 片 ,这 些 图 片 就 是 生成 的 假 样本 。 对 于 判别 器 D, 输 入 为 真实 
的 样本 和 生成 器 生成 的 伪 样 本 , 均 为 64X64 大 小 的 RGB 三 通道 图 片 。 判 别 器 与 生成 器 的 
各 层 的 图 像 尺寸 和 通道 数 保持 一 致 。 判 别 器 的 前 四 层 图 像 尺寸 依次 减 半 ,通道 数 加 倍 ,生成 
高 级 特征 表示 。 最 后 一 层 为 一 个 logistics 回归 二 分 类 器 ,输出 为 一 个 标量 , 即 对 样本 真实 性 
的 评分 ,表示 是 否 为 真实 样本 。 
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图 11.6 生成 式 对 抗 网 络 GAN 网 络 结构 


训练 的 一 些 超 参 设置 : 训练 采用 mini-batch 进行 训练 ,训练 的 batch size 为 64; 以 往 的 
GAN 都 采用 momentum 优化 器 加 速 训 练 ,DAN 采用 Adam 优化 器 进行 学 习 训 练 , 且 学 习 
率 为 0.0002; 所 有 的 参数 初始 化 都 是 从 正 态 分 布 得 到 的 , 正 态 分 布设 置 的 参数 均值 为 0, 方 
FEW 0. 02; 设置 Leaky ReLU 的 斜率 为 0.2; 将 momentum 参数 beta 从 0. 9 降 为 0.5, 有 助 
于 训练 稳定 ,防止 震荡 。 


11.2.3 DAN 应 用 于 样本 扩充 


根据 上 一 节 中 介绍 的 网 络 模型 ,可 以 进行 样本 扩充 ,而 且 DAN 具有 无 监督 表征 能 力 ， 
这 样 可 以 将 其 用 于 特征 提取 从 而 进行 图 像 分 类 。 在 下 一 章 中 有 关于 利用 DAN 的 无 监督 表 
征 , 结 合 有 监督 学 习 进 行 极 化 SAR 分 类 的 章节 。 本 章 实验 采用 Mnist 手写 体 数 据 集 和 
flower(102 类 ) 数 据 集 进行 样本 扩充 ,模拟 样本 数据 的 内 在 分 布 特性 。 因 为 手写 体 大 小 为 


) 第 11 音 ”深度 学 习 软件 仿真 平台 及 开发 环境 人 





28X28 ,与 上 一 节 所 述 的 通用 大 小 不 同 ,这 里 对 网 络 模型 做 了 一 些 调 整 ,并 且 将 类 标 同时 送 





入 网 络 中 ,这 里 就 不 详细 介绍 了 ,下 面 是 生成 的 手写 体 样本 。 图 11. 7 是 第 1 代 生 成 的 手写 
体 样 本 ,可 以 看 到 此 时 比较 模糊 ,并 不 能 很 完整 地 辨识 出 具体 的 数字 ,但 已 经 有 了 手写 体 的 
雏形 。 而 且 我 们 发 现 第 一 代 生成 的 数字 质量 和 多 样 性 都 比较 差 。 这 里 没有 显示 最 开始 100 
维 噪 声 的 图 片 就 是 一 些 杂 乱 的 黑白 点 。 图 11. 8 是 第 10 代 生 成 的 手写 体 样 本 。 此 时 ， 
相 比 第 1 代 , 网 络 已 经 渐渐 学 习 到 了 数据 集 的 分 布 特性 ,能够 生成 相对 清晰 的 手写 体 数字 ， 
而 且 与 原 数据 很 相像 。 但 是 笔画 仍然 断 断 ,数字 体外 还 是 有 多 余 的 白 点 。 图 11. 9 是 第 
20 代 网 络 生成 的 手写 体 样本 ,显而易见 ,此 时 的 数字 相 较 于 以 前 的 样本 已 经 十 分 清晰 ,我 们 
可 以 用 肉眼 识别 出 具体 的 数字 ,只 是 个 别 的 数字 会 有 笔画 不 清晰 的 情况 。 图 11. 10 是 第 25 
代 生 成 的 手写 体 样本 ,可 以 看 出 生成 的 样本 足以 * 以 假 乱 真 ” 
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图 11.7 第 1 代 生 成 样本 图 11.8 第 10 代 生成 样本 
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图 11.9 58 20 代 生 成 样 
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图 11.10 第 25 代 生成 样 


另外 ,我 们 用 TensorBoard 可 以 再 看 一 下 两 个 模型 在 训练 过 程 中 的 Loss。 图 11. 11 是 
判别 器 的 loss, 图 11. 12 是 生成 器 的 loss, 图 中 横 坐 标 均 为 训练 代数 。 由 图 可 以 看 出 两 个 模 
型 都 存在 一 定 的 抖动 ,特别 是 刚 开始 训练 时 抖动 比较 厉害 ,这 也 算是 两 个 模型 在 对 抗 过 程 中 
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此 消 彼 长 。 在 以 后 不 断 训练 的 过 程 中 ,两 个 模型 都 趋 于 稳定 ,只 是 稍微 有 些 起 伏 。 这 也 显示 
了 这 个 模型 相 比 一 般 的 GAN 的 稳定 性 。 
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FA 11.11 判别 器 的 loss 图 11.12 生成 器 的 loss 


我 们 还 用 flower102 数据 集 对 网 络 进行 了 测试 ,观察 生成 的 样本 。 这 个 花 打 数据 集 是 
Nilsback, M-E 和 Andrew Zisserman 收集 的 在 英国 盛开 的 花 人 条 图 片 。 数 据 共 分 为 102 类 ， 
每 个 类 别 由 40 到 258 个 图 片 组 成 ,本 章 实验 下 载 使 用 的 花 休 数据 集中 共 8189 KERE 
该 数据 集 的 特点 在 于 规模 、 拍 摄 角度 和 光线 差别 都 比较 大 。 在 数据 集中 有 差别 较 大 的 类 别 ， 
也 有 比较 相似 的 类 别 。 我 们 可 以 用 Isomap( 等 距 映 射 ) 算 法 根据 它 的 形状 shape( 图 11. 13) 
和 颜色 color( 图 11.14) 可 视 化 这 个 数据 集 。 











shape 可 视 化 color 可 视 化 

















图 11.13 shape 可 视 化 图 11.14 color 可 视 化 


因为 数据 集中 图 片 大 小 不 规则 ,所 以 我 们 在 将 数据 送 入 网 络 之 前 ,将 所 有 图 片 都 处 理 成 
64X64 大 小 。 下 面 是 实验 结果 ,每 张 结果 图 显示 了 8X8 个 64X64 的 生成 样本 。 图 11. 15 
是 第 一 代 生 成 的 花 条 图 片 ,由 于 网 络 开始 是 随机 初始 化 权 值 ,此 时 的 生成 器 还 不 会 生成 图 
片 ,也 可 以 通俗 地 说 成 是 “ 傻 * 的 ,因此 会 生成 无 意义 的 图 片 ,作为 判别 器 的 训练 集 假 的 部 分 。 
图 11.16 是 第 20 代 生 成 的 花 杂 样本 。 由 图 可 见 , 生 成 的 图 片 已 经 隐约 有 了 花 打 的 色彩 和 大 
致 形状 。 由 于 判别 器 可 以 把 真 图 和 假 图 识别 出 来 ,我 们 再 训练 生成 器 ,使 得 其 输出 能 欺骗 判 
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别 器 ,这 样 生成 器 能 窥探 到 判别 器 的 损失 函数 ,生成 越 来 越 相 像 的 样本 。 图 11. 17 是 第 60 
代 生 成 的 花 条 图 片 , 比 之 前 的 轮廓 更 清晰 。 图 11. 18 是 第 80 代 的 生成 样本 ,此 时 花 条 已 经 
很 逼真 了 。 





图 11.15 第 1 代 生 成 样本 图 11.16 第 20 代 生 成 样本 





图 11.17 第 60 代 生 成 样本 图 11.18 第 80 代 生成 样本 


11.3 MXNet 平 台 


11.3.1 MXNet 平台 开发 环境 


MXNet 是 由 dmlc/cxxnet、dmlc/minerva 和 Purine2 的 作者 发 起 的 ,是 一 个 效率 高 、 灵 
活性 强 的 深度 学 习 框 架 , 兼 具 Minerva 的 动态 执行 ,cxxnet 的 静态 优化 和 Purine2 的 符号 计 
算 的 思想 ,支持 基于 Python 的 parameter server 接口 ,保证 代码 可 以 很 快 向 分 布 式 进行 迁 
移 。MXNet 所 有 模块 的 设计 简洁 清晰 ,可 以 方便 地 被 使 用 。C 接口 和 静态 ,动态 库 设计 使 
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得 该 平台 扩展 新 语言 变 得 简单 可 行 。 目 前 现 有 的 深度 学 习 平 台大 部 分 都 是 采用 命令 式 编 程 
和 符号 式 编程 中 的 一 种 ,与 它们 不 同 的 是 ,MXNet 尝试 将 两 种 编程 模式 进行 无 缝 结合 ,允许 
开发 者 使 用 混合 符号 编程 和 命令 式 编程 。 在 符号 式 编程 中 ,MXNet 支持 符号 表达 ,在 命令 
式 编程 中 ,MXNet 则 支持 张 量 运算 ,混合 式 编程 最 大 限度 地 提高 了 效率 和 生产 力 ,用 户 可 以 
通过 使 用 两 种 编程 方式 来 实现 自己 的 思想 。MXNet 的 核心 是 一 个 动态 的 依赖 调度 ,能 够 实 
现 符号 和 命令 操作 的 自动 并 行 。 它 的 图 形 优化 层 加 快 了 符号 的 执行 速度 ,提高 了 内 存 的 使 用 
效率 。MXNet 的 库 具 有 便携 、 轻 量 的 特点 ,此 外 还 可 以 方便 地 扩展 到 多 个 GPU 和 多 台 机 器 。 

MXNet 可 进行 多 设备 间 的 数据 交互 ,该 功能 通过 KVStore 实现 , 它 提供 一 个 分 布 式 的 
key-value 存储 来 进行 数据 交换 ,主要 包括 两 个 函数 : push 函数 ,实现 从 一 个 设备 将 key- 
value 放 进 存储 的 功能 ; pull 函数 : 实现 从 存储 中 将 一 个 key 中 的 值 pull 出 来 的 功能 。 当 用 
户 想 在 Linux 或 Ubuntu 上 运行 Python/R 时 ,可 以 使 用 Git Bash 脚本 快速 安装 MXNet E 
以 及 其 他 依赖 。MXNet 还 可 以 在 Docker 或 者 云 上 (例如 AWS) 运 行 , 除 此 之 外 ,MXNet 还 
具有 如 下 特点 : 

m 支持 平台 : Ubuntu/Debian.OS X. Windows. AWS,Android,iOS,JavaScript。 

" 编写 语言 : C++ ,Python,Julia,Matlab,R,Scala。 

= Xt CUDA, 

m 支持 云 计算 : 所 有 数据 模型 可 以 从 S3/HDFS/Azure 上 直接 加 载 训练 等 。 

MXNet 的 系统 架构 见 图 11. 19。 从 上 到 下 分 别 为 各 种 主语 言 的 嵌入 ,编程 的 接口 (和 扼 
阵 运算 .符号 表达 式 、 分 布 式 通 信 ) ,两 种 编程 模式 的 统一 实现 ,以 及 各 硬件 的 支持 。 
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图 11.19 MXNet 的 系统 架构 














MXNet 的 开源 社区 为 用 户 提供 了 有 力 的 支持 。 

m 广泛 的 模型 支持 一 一 训练 和 部 署 了 最 新 的 深度 卷 积 神经 网 络 (CNN) 和 短期 记忆 模 

广泛 的 参考 示例 库 一 一 建立 示例 教程 (包括 代码 ), 如 图 像 分 类 、 语 言 建 模 、 神 经 艺 
术语 音 识别 等 。 

m 开放 和 协作 的 社区 一 一 社区 支持 和 贡献 者 很 多 都 来 自 世界 顶级 大 学 和 商业 合作 者 。 
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11.3.2 VGG-NET 深度 神经 网 络 学 习 


VGG-NET 是 由 Andrew Zisserman 教授 的 团队 设计 的 , 它 是 卷 积 神经 网 络 的 一 种 ,用 
来 解决 大 规模 图 像 分 类 问题 , 曾 在 2014 年 的 ILSVRC localization 和 classification 两 个 问 
题 上 分 别 取得 了 第 一 名 和 第 二 名 的 好 成 绩 。VGG-NET 在 原理 上 与 普通 的 CNN 并 无 不 
同 , 其 最 大 的 特点 有 两 个 : 一 是 局 部 感受 野 小 ,全 部 采用 3X3 的 滤波 器 ; 二 是 网 络 结构 深 ， 
通常 有 16 一 24 层 。 常 见 的 VGG-NET 网 络 结构 见 表 11. 1。 由 表 可 知 ,6 种 VGG-NET 网 
络 的 输入 均 为 224X224 大 小 的 RGB 图 像 , 有 5 个 最 大 池 化 层 ,三 个 全 连接 层 (前 两 层 各 有 
4096 个 神经 元 ,最 后 一 层 有 1000 个 神经 元 ) ,一 个 soft-max 层 , 不 同 网 络 的 卷 积 部 分 级 联 的 
卷 积 层 个 数 不 同 , 卷 积 层 从 8 到 16 不 等 , 卷 积 层 滤 波 器 的 个 数 从 64 开始 ,最 后 达到 512。 
由 表 11.1 可知,VGG-NET 的 C 中 使 用 了 1X1 的 卷 积 滤波 器 ,可 以 看 作 输入 的 线性 变换 ， 
除 此 之 外 ,所 有 滤波 器 的 大 小 都 设置 为 3X3, 步 长 固定 为 1, 最 大 池 化 为 2X2, 步 长 为 2。 所 
有 隐 层 的 激活 函数 均 采用 非 线性 激活 函数 ReLU。VGG-NET 中 除了 A-LRN 其 他 网 络 均 
未 进行 局 部 响应 归 一 化 (LRN) ,这 是 因为 在 VGG-NET 中 使 用 LRN 不 仅 不 会 提高 分 类 准 
确 率 , 反 而 会 增加 内 存 消耗 和 计算 时 间 。 

整个 VGG-NET 中 滤波 器 的 大 小 都 为 3X3, 使 用 两 个 具有 3X3 的 滤波 器 的 卷 积 层级 
联 的 效果 等 同 于 使 用 一 个 具有 5X5 的 滤波 器 的 卷 积 层 的 效果 。 使 用 三 个 具有 3X3 的 滤波 
器 的 卷 积 层级 联 的 效果 等 同 于 使 用 一 个 具有 7X7 的 滤波 器 的 卷 积 层 的 效果 , 相 较 于 一 个 
7X7 的 滤波 器 ,三 个 3X3 的 滤波 器 对 应 三 个 非 线性 激活 函数 ReLU, 这 使 得 判决 函数 更 具 
有 判决 能 力 ,同时 还 可 以 减少 参数 个 数 ,假设 级 联 的 三 个 卷 积 层 的 滤波 器 大 小 都 为 3X3, 输 
人 和 输出 的 通道 数 都 为 C, 则 参数 个 数 为 3X(3X3XCXC)=27XCXC, 一 个 卷 积 层 的 滤波 
器 大 小 为 7X7, 则 参数 个 数 为 7X7XCXC=49XCXC, 显 然 具 有 3X3 的 滤波 器 的 三 层 卷 
积 层级 联 的 参数 更 少 。 作 为 CNN 的 一 种 ,VGG-NET 由 卷 积 层 和 全 连接 层 组 成 。 网 络 中 
的 卷 积 层 描述 了 输入 的 局 部 特征 ,全 连接 层 则 描述 了 输入 的 全 局 特征 ,尤其 是 FC3 层 可 以 
很 好 地 描述 全 局 特征 ,所 以 该 层 常 被 当 作 输入 数据 的 新 的 特征 ,用 来 实现 图 像 分 类 。 网 络 权 
值 的 初始 化 非常 重要 , 较 差 的 初始 值 会 使 深度 网 络 中 的 梯度 不 稳定 ,从 而 导致 网 络 无 法 继续 
学 习 , 为 了 解决 该 问题 ,VGG-NET 使 用 了 预 训练 的 方法 ,首先 构建 拥有 较 少 网 络 层 数 的 A 
来 进行 训练 , 当 训 练 更 深 的 网 络 时 ,前 四 个 卷 积 层 和 最 后 的 三 个 全 连接 层 使 用 训练 好 的 A 
的 参数 进行 初始 化 ,其 余 参 数 随机 初始 化 。 表 11. 2 给 出 了 VGG-NET 的 参数 个 数 ,这 些 参 
数 是 如 何 计 算得 到 的 ?以 A 为 例 ,输入 为 224X224 的 RGB 图 像 , 第 一 个 卷 积 层 有 64 个 大 
小 为 3X3 的 滤波 器 ,因此 第 一 个 卷 积 层 参数 个 数 为 (3X3X3)X64 二 1728, 同 理 , 各 层 参 数 
计算 见 表 11.3。 虽 然 VGG-NET 的 网 络 层 数 很 多 ,但 是 感受 野 很 小 ,因此 整个 网 络 的 参数 
个 数 相 对 来 说 并 不 多 。 表 11. 1 中 的 DLE 是 我 们 常见 的 VGG-16 和 VGG-19 模型 。 

此 处 ,我 们 重点 介绍 MXNet 平台 的 example 中 给 出 的 VGG-NET HI VGG-A, 其 网 络 
结构 见 图 11. 20。VGG-NET 最 初 提出 时 是 用 于 ILSVRC-2012 数据 集 分 类 的 ,因此 VGG-A 
中 的 soft-max 分 类 器 有 1000 个 神经 元 。VGG-A 中 除去 输入 和 输出 共有 16 个 网 络 层 ,其 
中 有 8 个 卷 积 层 、5 个 池 化 层 和 3 个 全 连接 层 。 
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表 11.1 VGG-NET 网 络 结构 
A A-LRN B D E 
16 layers 16 layers 18 layers 21 layers 21 layers 24 layers 
conv3-64 conv3-64 conv3-64 conv3-64 conv3-64 
conv3-64 
LRN conv3-64 conv3-64 conv3-64 conv3-64 
max-pool 
conv3-128 ni conv3-128 conv3-128 conv3-128 conv3-128 
conv3-128 conv3-128 conv3-128 conv3-128 
max-pool 
conv3-256 
conv3-512 conv3-512 conv3-256 one-256 one conv3-256 
conv3-256 conv3-256 
conv3-512 conv3-512 conv3-256 conv3-256 
conv1-256 conv3-256 
conv3-256 
max-pool 
conv3-512 conv3-512 Cone ote 
conv3-512 conv3-512 conv3-512 conv3-512 
conv3-512 conv3-512 
conv3-512 conv3-512 conv3-512 conv3-512 
convl-512 conv3-512 
conv3-512 
max-pool 
conv3-512 
conv3-512 conv3-512 conv3-512 conve ote conveys conv3-512 
conv3-512 conv3-512 
conv3-512 conv3-512 conv3-512 conv3-512 
conv1-512 conv3-512 
conv3-512 
max-pool 
FC 4096 
FC 4096 
FC 1000 
softmax 
# 11.2 VGG-NET 网 络 参数 
网 E A A-LRN B c D E 
参数 数量 / 百 万 | 133 | 13 | as | 04 | ne 144 
表 11.3 VGG-A 参数 数量 计算 
网 络 层 参数 个 数 
convl 224 * 224 * 64 (3 * 3 * 3) * 64=1728 
max-pool 112 * 112 * 64 0 
conv2 112 * 112 * 128 (3*3*64) * 128—73 728 
max-pool 56 * 56 * 128 0 
conv3 56 * 56 * 256 (3 * 3 * 128) * 256—294 912 
56 * 56 * 256 (3 * 3 * 256) * 256—589 824 
max-pool 28 * 28 * 256 0 
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续 表 
参数 个 数 g 




















网 络 层 
conv4 28 * 28 * 512 (3 * 3 * 256) *512—1 179 648 
28 * 28 * 512 (3 * 3 * 512) * 512—2 359 296 
max-pool 14* 14 * 512 0 
conv5 14*14* 512 (3*3*512) * 512—2 359 296 
14*14* 512 (3*3*512) * 512—2 359 296 
max-pool 7*7*512 0 
FC1 1*1* 4096 (7 * 7 * 512) * 4096=102 760 448 
FC2 1*1* 4096 4096 * 4096=16 777 216 
FC3 1*1* 1000 4096 * 1000=4 096 000 
softmax 1*1* 1000 





1000 * 1000=1 000 000 





14x14 
14x14x512 











Æ 11.20 VGG-A 网 络 结构 图 
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11.3.3 图 像 分 类 应 用 任务 


使 用 VGG-A 对 Flower 数据 集 进行 分 类 。Flower 数据 集 共 有 102 个 类 别 ,8189 个 样 
本 ,每 类 包含 40 到 258 个 不 等 的 样本 数 。 每 张 图 片 的 尺寸 不 同 , 需 对 其 进行 归 一 化 ,由 于 
VGG-A 的 输入 是 224 X224 的 RGB 图 像 ,全 部 归 一 化 为 224 X224。 随 机 选取 其 中 1000 个 
样本 组 成 测试 集 ,其 余 7189 个 样本 组 成 训练 集 。 

symbol vgg. py 文件 实现 VGG-A 网 格 结构 的 构建 ,由 于 类 别 数 为 102,num_classes 一 
102, train model. py 文件 实现 的 功能 有 多 设备 间 的 数据 交互 ,加 载 模型 、 保 存 模 型 等 。 
train. lower. py 文件 对 相关 参数 进行 设 定 , 加 载 数据 , 设 置 和 迭代 器 ,对 模型 进行 训练 等 。 
由 于 数据 是 以 numpy 类 型 存储 的 ,因此 使 用 了 NDArraylter 迭代 器 。 若 数据 是 以 MXNet 
特有 的 rec 格式 存储 的 , 则 可 使 用 ImageRecoderlter 迭代 器 。 和 迭代 器 及 主要 参数 设 定 
如 下 : 


def get iterator(args, kv) 
train = mx. io. NDArryIter( 
data = train data, 
label = train label, 
batch size = args.batch size, 
shuffle = True, 
last_batch_handle = 'pad' 
) 
val = mx. io. NDArryIter( 
data- test data, 
label- test label, 
batch size- args.batch size, 
shuffle- True, 
last batch handle = 'pad' 
) 
return train, val 
1r-0.005 
num - epoch = 120 
batch- size = 100 


默认 不 进行 多 设备 间 的 数据 交互 ,运行 train. imagenet. py 文件 即 可 开始 对 VGG-A 进行 训 
练 ,如 图 11. 21 所 示 ,训练 结果 如 图 11. 22 所 示 。 训 练 时 使 用 了 一 个 GPU ,训练 一 个 epoch 
用 时 3 分钟 左右 ,每 训练 一 个 epoch 进行 一 次 测试 。 最 终 的 训练 准确 率 为 89. 2% ,top5 训 
练 准确 率 为 93. 9%% ,测试 准确 率 为 56. 9% ,top5 测试 准确 率 为 80.7%。VGG-NET 的 网 络 
很 深 , 训 练 集 样本 数 过 少 ,导致 模型 过 拟 合 ,读者 可 使 用 更 大 的 数据 集 来 进行 实验 ,相信 会 获 
得 更 好 的 分 类 结果 。 
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图 11.21 VGG-A 开始 训练 





11.4 Torch 7 平台 


11.4.1 Torch 7 +f 


Torch 是 一 个 广泛 支持 机 


言 和 一 个 底层 的 C/CUDA 实现 , Torch 易于 使 用 且 高 
Twitter, NYU, IDIAP, Purdue 和 其 他 几 家 公司 和 研究 实 


Torch 的 核心 是 流行 的 神 


图 11.22 VGG-A 训练 结果 


E 台 开发 环境 


器 学 习 算 法 的 科学 计算 框架 ,由 于 采用 简单 而 快速 的 脚本 语 
下 ,已 经 用 在 Facebook, Google, 


E o 


经 网 络 和 优化 库 , 它 们 易于 使 用 ,同时 在 实现 复杂 的 神经 网 络 








拓扑 结构 时 具有 最 大 的 灵活 性 ,可 以 建立 任意 的 神经 网 络 图 ,并 在 CPUs 和 GPUs 上 有 效 地 
并 行 化 。 同 时 ,Torch 拥有 一 个 强大 的 维 数组 ,很 多 实现 索引 ,切片 、 移 调 的 例 程 ,还 包括 
LuaJIT 到 C 的 接口 .基于 能 量 的 模型 以 及 线性 代数 数值 优化 的 例 程 。 





Torch 的 目标 是 在 建立 科 


学 算法 的 同时 ,要 有 最 大 的 灵活 性 和 速度 ,而 这 一 过 程 非常 简 


单 。Torch 拥有 一 个 大 社区 驱动 包 的 生态 系统 ,涉及 机 器 学 习 、 计 算 机 视觉 ,信号 处 理 、 并 行 
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Jb E LE e .视频 . 音 频 和 网 络 等 ,并 建立 在 Lua 社区 基础 之 上 。 

Lua 是 一 个 小 巧 的 脚本 语言 ,是 巴西 里 约 热 内 卢 天 主教 大 学 里 的 一 个 研究 小 组 ,由 
Roberto lerusalimschy、Waldemar Celes 和 Luiz Henrique de Figueiredo 所 组 成 并 于 1993 
年 开发 。 其 设计 目的 是 为 了 舱 入 到 应 用 程序 中 ,从 而 为 应 用 程序 提供 灵活 的 扩展 和 定制 功 
能 。Lua 由 标准 C 编写 而 成 ,几乎 在 所 有 操作 系统 和 平台 上 都 可 以 编译 .运行 。Lua 有 一 个 
同时 进行 的 JIT 项 目 ,提供 在 特定 平台 上 的 即时 编译 功能 。 

Lua 的 大 部 分 功能 来 源 于 它 的 标准 库 , 这 也 符合 Lua 的 设计 原则 。 因 为 Lua 的 主要 特 
性 就 是 它 的 可 扩展 性 。 语 言 中 的 许多 特性 都 体现 出 了 这 点 。 动 态 类 型 为 多 态 提 供 了 支持 。 
高 阶 函 数 和 匿名 函数 允许 实现 更 高 层 的 参数 化 ,能 使 函数 变 得 更 加 通用 。Lua 具有 很 多 
优点 : 

m 可 扩展 性 ,Lua 从 一 开始 就 被 设计 为 可 扩展 的 , 既 可 用 Lua 代码 来 扩展 ,又 可 以 用 外 

部 的 C 代码 来 扩展 。 

" 简易 性 ,一 个 完整 的 Lua 发 布 版 本 可 以 很 轻松 地 存放 在 一 张 软盘 中 。 

m 高 效 性 ,通过 独立 评测 结果 显示 ,Lua 是 所 有 脚本 语言 中 最 快 的 语言 之 一 。 

m 可 移植 性 ,Lua 可 以 在 任何 平台 上 和 运行, 不仅 是 Windows 和 UNIX 平台 ,还 包括 

PlayStation, Xbox, Mac OS-9, 08 X, BeOS, QUALCOMM Brew, MS-DOS, IBM = 
BL. RISC 操作 系统 .PalmOS、ARM 处 理 器 、Rabbit 处 理 器 .类 UNIX, % Windows 
系统 。 

同样 ,Torch 7 既 可 以 安装 在 Windows 系统 上 ,也 可 以 安装 在 Linux 操作 系统 上 ,安装 
过 程 相对 简单 ,便于 操作 。 本 章 的 实验 是 在 基于 Ubuntu 14. 04 版 本 的 操作 系统 下 进行 的 。 
另外 ,由 于 Face book 开源 了 他 们 基于 Torch 的 深度 学 习 库 包 , 这 个 版 本 包括 GPU 优化 的 
大 卷 积 模块 ,以 及 稀疏 网 络 , 这 些 通常 被 用 在 自然 语言 处 理 中 的 应 用 中 。 使 用 者 可 以 在 
Torch 平 台 上 更 自由 地 实现 对 已 有 模块 逻辑 复杂 的 调用 ,更 加 简单 地 实现 自己 的 算法 ,不 用 
浪费 精力 在 计算 优化 上 面 。 


11.4.2. 二 值 神经 网 络 


二 值 神经 网 络 (Binary Neural Network,BNN) 起 源 于 1943 年 Warren McCulloch 和 
Walter Pitts 提出 的 人 工 神经 元 模型 ,真正 兴起 是 在 2015 年 底 , 由 Yoshua Bengio 领导 的 蒙 
特 利 尔 大 学 的 研究 组 在 arxiv. org 上 发 表 的 文章 
Weights and Activations Constrained to +1 or 一 1, 如 图 11.23 所 示 。 二 值 神经 网 络 是 神 
经 网 络 “ 小 型 化 ”探索 中 重要 的 一 个 方向 。 针 对 传统 的 神经 网 络 模型 ,网 络 的 系数 以 及 网 络 
的 中 间 结 果 可 作为 二 值 化 部 分 。 通 过 把 浮 点 单 精度 的 系数 变 成 正 1 或 负 1, 系 数 的 二 值 化 
能 达成 存储 大 小 变 为 原来 的 1/32, 也 就 是 3%。 另 外 ,由 于 大 部 分 计算 都 在 一 1 和 1 之 间 进 
行 ,可 以 将 浮 点 计算 替换 成 整数 位 计算 。 在 支持 64 位 运算 的 CPU 和 GPU 上 ,这 意味 着 64 
倍 的 理论 加 速 比 。 

二 值 神经 网 络 的 主要 思想 是 通过 二 值 化 权 值 参数 W 和 隐藏 层 激活 值 a ,来 减少 存储 内 
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图 11.23 二 值 神经 网 络 结构 图 


存 的 占用 。 同 时 利用 位 移 操 作 来 代替 网 络 中 的 乘法 运算 ,大 大 减少 了 运算 时 间 。 二 值 网 络 
训练 时 的 权 值 参数 W ,必须 包含 实数 型 的 参数 ,然后 将 实数 型 权 值 参 数 二 值 化 ,得 到 二 值 型 
权 值 参数 , 即 
Wi = Binarize(W,) (11.9) 
然后 利用 二 值 化 后 的 参数 计算 得 到 实数 型 的 中 间 向 量 ,该 向 量 再 通过 Batch 
Normalization 操作 ,得 到 实数 型 的 隐藏 层 激活 向 量 。 如 果 不 是 输出 层 , 就 将 该 向 量 二 值 化 。 
通常 ,采取 的 二 值 化 方法 为 : 正 数 置 为 1, 负数 置 为 一 1, 如 图 11. 24 所 示 。 


十 1 x20 
a^ = sign(z) = | (11.10) 
—1 其 他 


Sign(x) 
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图 11.24 sign C22 K$ 
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但 是 ,考虑 到 符号 函数 不 好 进行 梯度 传播 的 反 向 传播 ,因为 如 果 直 接 对 决定 式 的 二 值 化 
函数 求 导 , 求 导 后 的 值 均 为 零 。 所 以 采取 一 种 妥协 方法 ,将 sign(z) 进 行 宽松 ,实现 函数 的 
可 导 。 如 图 11. 25 Bros ,改进 后 的 函数 为 : 

Htanh(z) = Clip(z, — 1.1) = max( 一 1,min(1,z)) (11:11) 


























Æ 11.25 Hard tanh(z) 函 数 


在 求 梯度 时 ,根据 链 式 法 则 ,在 求解 第 k 层 和 第 k 十 1 层 的 权 值 参数 的 梯度 之 前 ,必须 先 
求解 第 & 十 1 层 的 误差 值 。 即 
a 20V D) 








WP = wP —a es (1.12) 
其 中 : 
n _ 1 aig] QV box p .WH (11.13) 
21 OW bs x) =a «ae (O1. 14) 
a 


在 求 梯度 时 , 需 注意 由 于 二 值 网 络 中 ,除了 输出 层 ,其 他 隐藏 层 都 需 经 过 二 值 化 ,所 以 在 
3K Batch Normalization 的 参数 时 ,必须 先 求 二 值 操作 层 。 二 值 网 络 在 对 权 值 求 梯度 时 ,是 
对 二 值 化 后 的 权 值 求 梯度 ,而 不 是 对 二 值 化 前 的 实数 型 权 值 求 梯 度 ,因为 二 值 化 前 的 权 值 没 
有 真正 地 参与 网 络 的 前 向 传播 过 程 。 另 外 ,在 权 值 更 新 过 程 中 ,与 求 权 值 梯度 不 同 ,不 青 是 
对 二 值 化 后 的 结果 更 新 ,而 是 利用 实数 型 的 权 值 进行 更 新 。 最 后 ,是 关于 乘法 的 优化 ,对 
Batch Normalization 的 优化 主要 通过 AP2(x) 和 简单 的 位 移 操作 , AP2(x) 的 作用 是 求 与 x 
最 接近 的 2 的 寡 次 方 。 


11.4.3. 二 值 神经 网 络 应 用 于 图 像 分 类 


在 本 章 的 实验 中 ,主要 将 二 值 神经 网 络 用 于 MNIST 数据 集 和 SVHN 数据 集 的 分 类 。 

MNIST 是 一 个 手写 数据 的 数据 库 , 它 有 50 000 个 训练 数据 集 和 10 000 个 测试 数据 集 。 
MNIST 的 图 像 块 大 小 是 28X28, 要 实现 的 是 10 分 类 问题 。 

实验 中 的 模型 部 分 为 4 层 全 连接 的 网 络 ,如 图 11. 26 所 示 。 各 层 的 节点 数 分 别 为 784、 











2048,2048, 2048, 10. He In — KOK HH. hinge loss fF W tit K PR AW. hinge loss 常用 于 
“maximum-margin” 的 算法 。 实 验 共 训练 了 100 代 ,BatchSize 设 为 100。 实 验 过 程 对 应 的 二 
值 神经 网 络 具 体 模 型 如 下 : 

实验 过 程 中 , MNIST 训练 数据 集 的 最 终 准确 率 为 99. 95 26 ,测试 数据 集 的 准确 率 为 
98.43% 。 图 11. 27 为 MNIST 训练 数据 的 混淆 矩阵 ,图 11. 28 y MNIST 测试 数据 的 混淆 
矩阵 ,图 11. 29 为 MNIST 在 二 值 神经 网 络 训练 和 测试 过 程 中 的 错误 率 折线 图 。 





L1:724 L2:2048 L3:2048 L4:2048 L5:10 













RA m P NA SE OS 
WY 

29 pM M OR NT Ui 

SK RA WYO SE 0 

EN RO oo ， g 

NOU dm 














输入 层 隐藏 层 隐藏 层 隐藏 层 输出 层 











图 11.26 MNIST 对 应 的 二 值 神经 网 络 模 型 





图 11.27 MNIST 训练 数据 的 混 清和 矩阵 


SVHN 是 一 个 街道 门牌 号 数字 识别 数据 集 , 是 一 个 10 分 类 问题 ,主要 用 于 机 器 学 习 以 
及 目标 识别 算法 中 。SVHN 与 MNIST 的 不 同 在 于 : MNIST 是 单 通道 的 灰 度 图 像 ,而 
SVHN 是 3 通道 的 自然 图 像 , 且 SVHN 的 图 像 大 小 为 32X32。 在 本 章 的 实验 中 ,训练 集 大 
小 为 73257 ,测试 集 大 小 为 26032。 实 验 过 程 对 应 的 二 值 神 经 网 络 具 体 模 型 如 图 11. 30 所 示 。 
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图 11.28 MNIST 测试 数据 的 混淆 矩阵 
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图 11.29. MNIST 在 二 值 神经 网 络 训练 和 测试 过 程 中 的 错误 率 折 线 图 
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图 11.30 SVHN 对 应 的 二 值 神经 网 络 模型 
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实验 统计 , SVHN 训练 数据 集 的 最 终 准确 率 为 98. 38% ,测试 数据 集 的 准确 率 为 
84.17%. E| 11. 31 为 SVHN 训练 数据 的 混淆 矩阵 ,图 11. 32 为 SVHN 测试 数据 的 混 活 和 矩 
阵 , 图 11.33 为 SVHN 在 二 值 神经 网 络 训练 和 测试 过 程 中 的 错误 率 折线 图 。 





图 11.31 SVHN 训练 数据 的 混淆 矩阵 





图 11.32 SVHN 测试 数据 的 混淆 矩阵 






Training Error 
Test Error 





0 20 40 60 80 100 120 14 160 180 200 


练 和 测试 过 程 中 的 错误 率 折 线 图 








图 11.33 SVHN 在 二 值 神经 网 络 
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11.5 Theano 平台 


11.5.1 Theano 平台 开发 环境 


Theano 由 LISA 实验 室 在 蒙特 利 尔 大 学 开发 ,是 深度 学 习 较 早 的 库 之 一 ,由 深度 学 习 
= 465K (Hinton, LeCun, Bengio) fl] Bengio 构建 。 用 来 支持 机 器 学 习 算 法 的 快速 发 展 ， 
专门 为 深度 学 习 中 大 型 神经 网 络 的 计算 而 设计 ,可 以 进行 多 种 深度 学 习 模 型 的 训练 和 架构 。 
Theano 是 BSD 许可 证 发 布 的 开源 软件 ,包含 许多 自 定 义 C A CUDA 代码 生成 器 ,可 以 适 
应 多 种 格式 和 大 小 的 输入 。 它 使 用 Python 编写 ,C 编译 执行 ,CUDA 并 行 加 速 ,可 以 安装 
在 Linux 或 Windows 系统 上 ,需要 Python 环境 支持 。 它 支持 GPU 加 速 , 支 持 cuDNN 深 
度 学 习 库 等 。Theano 不 是 正常 意义 上 的 编程 语言 ,而 是 使 用 Python 编写 程序 生成 Theano 
的 表达 式 。Theano 实际 是 一 个 Python PE ,允许 定义 、 优 化 和 计算 数学 表达 式 , 特 别 是 提高 

另外 ,对 于 大 数据 问题 ,使 用 Theano 相对 于 C 语言 具有 速度 上 的 优势 , 它 也 可 以 利用 
GPU, 在 性 能 上 大 大 超越 运用 CPU 的 C 语言 。Theano 将 计算 机 代数 系统 CCAS 和 一 种 
优化 编译 器 结合 。 它 还 可 以 为 许多 数学 运算 生成 自 定义 的 C 代码 。 当 复杂 的 数学 表达 式 
重复 进行 计算 并 且 评 价 速度 很 关键 时 ,CAS 与 优化 编译 这 个 组 合 尤为 重要 。 在 许多 不 同 表 
达 每 个 都 被 评价 一 次 的 情况 下 ,Theano 可 以 减少 汇编 和 分 析 的 开销 ,但 仍然 提供 符号 功能 ， 
如 自动 分 化 。Theano 是 一 个 数学 表达 式 的 编译 器 ,其 编译 器 为 符号 表达 式 提 供 复 杂 程 度 不 
同 的 优化 。 这 些 优化 包括 但 不 是 限于 : 使 用 GPU 计算 ; a RR TE: XCREHKCRURUR KK: 
支持 线性 代数 计算 ; 惰性 求 值 ; 并 行 计算 ; 符号 微分 ; 支持 大 部 分 Numpy, 基 本 的 Scipy PR 
数 ; 支持 图 变换 ,包括 : 微分 /高 阶 微分 ,“R’ 和 “L’ 微 分 算 子 ,速度 /记忆 优化 ,数值 稳定 性 优 
化 ; 支持 CUDA 后 端 ; 可 以 循环 工作 。Theano 可 以 使 用 g++ 或 nvcc 编译 表达 图 为 CPU 
或 GPU 的 指令 , 比 单一 Python 运行 得 更 快 ; 可 以 自动 建立 符号 图 用 来 计算 梯度 ; 可 以 识 
别 一 些 不 稳定 的 数值 表达 并 用 更 稳定 的 数值 运算 来 计算 。Theano 更 关注 张 量 表达 ,编译 更 
加 机 械 化 。Theano 内 部 构造 为 一 个 图 结构 ,包含 变量 节点 .操作 节点 、 应 用 节点 。 其 中 应 用 
节点 代表 对 一 些 变量 的 操作 。 因 为 它 是 一 个 代数 符号 系统 ,所 以 数学 表达 式 中 的 符号 就 是 
Theano 的 变量 ,数学 变量 用 运算 符 等 操作 符 连接 起 来 ,就 形成 Theano 的 一 个 图 。 如 果 需 
要 构建 神经 网 络 ,本 质 就 是 建立 一 张大 图 。 拥 有 图 结构 ,使 得 微分 计算 非常 简单 ,每 张 图 的 
结构 都 清晰 地 展示 了 从 输入 到 输出 的 运算 过 程 ,从 而 使 得 提高 计算 方式 成 为 可 能 。Theano 
中 的 优化 一 般 都 是 将 现 有 的 图 或 子 图 用 一 些 可 以 达到 相同 的 计算 结果 , 却 更 加 稳定 高 效 地 
图 来 代替 。Theano 构建 神经 网 络 十 分 方便 ,提供 几 个 基础 的 神经 网 络 模型 代码 ,并 且 含 有 
详细 的 注释 。 使 用 Theano 搭建 神经 网 络 是 因为 它 可 以 自动 计算 梯度 ,并 且 只 需要 定义 函 
数 和 计算 梯度 两 个 过 程 。 其 构建 的 深度 学 习 代码 一 般 包 含 四 个 部 分 : 数据 、 模 型 、 预 训练 和 
训练 .测试 。 另 外 有 许多 基于 Theano 的 深度 学 习 库 ,如 lasagna、keras、nolearn, 使 用 这 些 
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库 , 可 以 通过 简单 的 堆 释 构建 一 个 完整 的 神经 网 络 , 为 我 们 的 学 习 提供 很 大 的 便利 。 e 


11.5.2 递归 神经 网 络 


神经 网 络 是 模拟 大 脑 皮 层 的 运作 机 理 , 建 立 神经 元 之 间 的 联系 ,用 来 获取 学 习 、 理 解 信 
息 。 传 统 的 神经 网 络 是 输入 层 到 隐藏 层 , 隐 藏 层 到 输出 层 之 间 的 全 连接 ,而 实际 上 我 们 的 大 
脑 的 连接 要 更 加 复杂 ,不 只 层 与 层 之 间 ,每 层 内 部 也 应 该 有 连接 , 当 理 解 一 篇 文章 ,或 者 识别 
一 个 乐谱 时 ,我 们 不 只 需要 当前 知识 ,还 要 参考 之 前 积累 的 信息 ,针对 这 些 问题 ,RNN 网 络 
应 运 而 生 ( 见 图 11. 34) ,其 特点 就 是 隐藏 层 内 部 各 个 神经 元 之 间 有 着 循环 的 传递 回路 。 

















输入 层 隐藏 层 输出 层 





图 11.34 递归 神经 网 络 (RNN) 结 构图 


RNN 具备 了 对 时 间 的 建 模 功能 ,可 以 存储 上 一 时 刻 的 信息 ,用 来 推断 下 一 时 刻 的 分 类 
结果 , 即 神经 网 络 的 输出 是 当前 时 间 输 入 (输入 层 的 输出 ) 与 上 一 时 刻 输出 (隐藏 层 的 输出 ) 
共同 作用 的 结果 , 隐 层 之 间 存 在 闭环 回路 ,使 得 
从 任意 时 刻 出 发 ,可 以 接收 上 一 时 刻 的 信息 , 故 
将 其 称 为 递归 神经 网 络 。RNN 具有 记忆 能 力 ， 
与 时 间 有 关 , 它 与 普通 神经 网 络 不 同 的 是 ,一 个 
隐 层 可 视 为 多 个 隐 层 , 且 隐 层 节点 之 间 互 有 连 
接 , 因 此 可 以 将 RNN 按照 时 间 序 列 展开 , 如 
图 11. 35 所 示 。 从 图 11. 35 可 以 看 出 ,RNN 隐 
层 可 以 看 作 将 几 个 普通 神经 网 络 拼接 起 来 。 图 11. 35 RNN 隐藏 层 按时 间 展 开 图 

RNN 的 输入 一 般 为 一 个 时 间 序 列 ,在 该 图 
中 即 X=[Xa ,Xeo,Xs]; 若 输入 X 为 一 句 话 , 则 Xo。 代 表 一 个 单词 ,编程 的 时 候 , 必 须 将 单 
词 转换 为 计算 机 可 以 识别 的 形式 ,所 以 要 将 一 个 单词 表示 为 一 个 向 量 , 即 词 向 量 ,可 以 用 一 
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个 单位 向 量 来 表示 。h 代 表 隐 茂 层 的 输出 , 即 网 络 所 记忆 的 内 容 , 一 般 是 输入 与 权重 经 过 
非 线 性 激活 函数 得 到 的 值 ,在 RNN 中 ,输入 要 包含 输入 与 输入 层 和 隐藏 层 之 间 的 权重 W 
以 及 上 一 时 刻 隐 藏 层 输出 和 隐藏 层 节点 的 权重 V 两 部 分 。Y。 代 表 网 络 输出 , 它 仅 与 当前 时 
刻 隐藏 层 的 输出 有 关 , 一 般 可 经 过 softmax 分 类 器 得 到 。 

RNN 与 普通 神经 网 络 另 一 点 不 同 是 权 值 共享 。 每 输入 一 个 序列 ,从 该 序列 输入 ,到 隐 
藏 层 , 再 到 输出 ,每 一 层 拥有 同样 的 参数 ,这 使 得 学 习 的 关联 性 更 强 , 学 习性 能 更 好 ,并 且 
降低 了 网 络 需要 学 习 的 参数 。RNN 的 训练 过 程 是 : 首先 将 一 个 序列 按时 间 分 为 许多 子 
序列 ,每 次 送 入 网 络 一 个 子 序列 ,将 当前 时 刻 子 序列 与 隐藏 层 经 过 计算 得 到 当前 时 刻 的 
隐藏 层 的 输出 值 , 青 与 上 一 时 刻 隐 藏 层 的 输出 值 联合 ,共同 送 入 输出 层 , 得 到 输出 结果 。 
接 下 来 再 对 下 一 时 刻 的 子 序列 做 相同 的 运算 。 可 以 将 RNN 类 比 为 一 个 权重 都 一 样 的 前 
馈 神 经 网 络 ,其 训练 过 程 体现 了 其 记忆 功能 ,这 使 其 在 文本 、 语 音 等 的 处 理 方面 具有 很 大 
的 优势 。 

RNN 特有 的 循环 特征 ,使 得 其 可 以 寻找 历史 和 未 来 之 间 的 关系 ,可 以 将 它 看 作 推 断 机 
器 。RNN 在 文本 生成 ,语言 模型 机 器 翻译 等 方面 有 很 突出 的 贡献 。 序 列 数据 预测 是 机 器 
学 习 和 人 工 智 能 的 重要 问题 之 一 ,语言 模型 的 目的 就 是 根据 给 定 文章 中 的 文字 数据 预测 下 
一 个 文字 ,因此 生成 语言 模型 就 是 要 考虑 预测 序列 数据 。 适 用 于 语音 识别 和 机 器 翻译 的 请 
言 模型 需要 大 量 的 数据 ,已 有 的 许多 模型 都 过 于 复杂 且 仅 适用 于 少量 的 数据 。 例 如 Bengio 
提出 的 运用 前 馈 神经 网 络 统计 语言 模型 ,只 能 用 固定 长 度 的 文本 ,通常 预测 下 一 个 单词 需要 
之 前 5 一 10 个 单词 。 而 对 于 RNN 的 循环 结构 ,不 受 文本 长 度 的 限制 ,信息 在 网 络 内 部 循 
环 ,实现 一 定时 间 内 的 记忆 ,这 对 于 现实 生活 中 长 短 不 一 的 语句 的 预测 更 加 准确 。 

RNN 做 图 像 描 述 生 成 就 是 生成 一 幅 图 片 和 图 片区 域 对 应 的 文字 描述 ,模型 的 目的 是 生 
成 语言 和 可 视 化 数据 之 间 的 关系 ,使 用 的 数据 库 包含 许多 图 片 , 且 每 幅 图 片 有 其 对 应 的 语言 
描述 ,模型 训练 时 输入 图 片 和 语言 描述 ,在 测试 阶段 就 可 以 利用 训练 好 的 模型 使 输入 的 图 片 
输出 其 对 应 的 文本 描述 。 训 练 过 程 中 将 语句 的 单词 转 为 向 量 ,作为 序列 输入 RNN 中 ,RNN 
再 根据 这 个 词 和 上 一 个 词 来 预测 下 一 个 词 ,最 终 预 测 出 图 片 对 应 的 语句 。 

RNN 做 音乐 生成 最 直接 的 方式 是 将 网 络 作为 单 步 预 测 器 ,网 络 利 用 上 时 刻 的 信息 作为 
输入 来 预测 :十 1 时 刻 的 信息 ,整个 学 习 结 束 后 ,网 络 就 根据 初始 输入 和 由 隐 层 生成 的 子 序 
列 的 输入 ,生成 新 的 信息 。 对 于 前 馈 神 经 网 络 , 不 具备 存储 过 去 信息 的 能 力 , 便 不 能 模拟 一 
首 音乐 的 旋律 。 做 音乐 生成 ,需要 将 音乐 数据 转 为 序列 数据 ,根据 读 入 的 音符 ,学 习 出 一 段 
旋律 。 

RNN 属于 深度 神经 网 络 , 相 对 于 普通 神经 网 络 , 其 深度 不 只 是 对 于 隐藏 层 的 层 数 ,还 指 
隐藏 层 展开 的 时 间 步 数 的 深度 ,RNN 利用 权 值 共享 ,当前 步 的 输出 是 之 前 很 多 步 共同 作用 
的 结果 ,所 以 在 网 络 训 练 的 过 程 中 ,很 容易 出 现 梯度 消失 ,尤其 是 对 于 长 时 间 的 记忆 ,RNN 
就 不 能 很 好 地 运作 。 针 对 RNN 的 不 足 ,发展 了 一 系列 改进 的 RNN, 其 中 典型 的 有 双向 循环 网 
络 (Bidirectional RNNs,BRNN) ,长短 时 记忆 网 络 (Long Short Term Memory,LSTM) 等 。 

Bidirectional RNNs( 见 图 11. 36) 在 1997 年 由 Schuster 和 Paliwal 发 明 。 它 不 只 可 以 
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访问 上 一 时 刻 的 信息 ,还 可 以 加 入 未 来 的 信息 , 当 我 们 要 预测 一 个 语句 中 中 间 部 分 的 词语 
时 ,需要 考虑 其 前 后 的 因素 ,因此 需要 双向 循环 网 络 。 其 每 一 个 展开 的 序列 都 有 前 后 两 个 循 
环 回路 。 网 络 的 输出 由 两 个 回路 的 隐 层 输出 共同 决定 。 


























图 11.36 BRNN 隐藏 层 按时 间 展 开 图 


LSTM 在 1997 年 由 Sepp Hochreiter 和 Jurgen Schmidhuber 提出 ,其 结构 如 图 11. 37 
所 示 ,是 针对 RNN 不 能 进行 长 时 间 的 记忆 而 改进 的 网 络 。 其 主要 思想 是 通过 门将 短 时 记 
忆 的 信息 存储 起 来 。 前 面 讲 过 RNN 按照 时 间 展 开 可 以 看 作 几 个 普通 的 单 隐 层 神经 网 络 ， 
LSTM 就 是 将 隐 层 变 为 四 层 。 当 写 入 门 的 权重 为 1 时 ,人 允许 循环 读 取 外 部 网 络 的 内 容 , 当 
保持 门 的 权重 为 1 时 ,会 将 内 容 记忆 在 循环 中 , 当 保持 门 权 重 为 0 时 ,记忆 将 会 被 清除 , 当 读 
取 门 的 权重 为 1 时 ,允许 外 部 网 络 从 循环 中 读 取 内 容 。 这 样 当 网 络 需要 某 一 记忆 值 时 ,就 将 
该 值 输出 , 若 不 需要 该 值 就 在 循环 体内 部 循环 ,直至 消除 该 记忆 。 这 样 从 该 值 读 取 到 写 入 ， 
通过 所 有 的 单元 后 权重 约 为 1, 产生 的 反 向 传播 误差 可 忽略 ,所 以 有 效 地 避免 了 梯度 弥散 
现象 。 














图 11.37 LSTM 网 络 结构 图 
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11.5.3 LSTM 应 用 于 情感 分 类 任务 


1. 数据 集 介绍 


IMDB 数据 集 是 目前 互联 网 最 权威 的 电影 数据 集 。 数 据 集中 的 每 一 行 代表 一 部 电影 或 
者 电视 节目 ,包含 电影 导演 演员 等 信息 。 如 果 某 人 与 该 行 电影 有 关 则 用 1 表示 ,否则 用 0 
表示 。 

IMDB 有 正规 的 电影 评分 系统 ,用 户 可 以 根据 喜好 对 电影 评分 ,从 而 可 以 将 电影 分 为 正 
面 情 感 和 负面 情感 两 类 。 该 数据 集 包 含 2. 5 万 条 电影 评论 ,每 一 条 都 被 赋予 正面 或 负面 标 
签 , 且 每 一 条 评论 被 处 理 成 一 个 序列 。 

本 实验 所 用 的 数据 集 ,是 Bengio 团队 将 原始 数据 集 封装 后 得 到 的 。 包 括 训练 集 ` 测 试 
集 、 验 证 集 。 每 个 数据 集 的 序列 数据 和 对 应 标签 以 数组 的 形式 封装 在 一 起 。 例 如 : train set(0) 
代表 训练 集 的 序列 数据 ,train set(1) 代 表 训练 集 的 类 标 ,将 二 者 共同 用 来 训练 网 络 。 

本 实验 所 用 训练 集 数据 量 为 1998 条 ,测试 集 数据 为 250 000 条 (实际 用 于 网 络 的 数量 
可 自 定 义 ) ,验证 集 数据 为 105 条 。 其 中 训练 数据 用 来 训练 网 络 的 参数 ,验证 集 用 来 精 调 网 
2 ,测试 集 用 来 检验 网 络 的 性 能 。 网 络 的 类 标 为 0 或 1 标签 ,其 中 1 代表 正面 情感 ,0 代表 
负面 情感 ,一 个 数据 对 应 着 一 个 类 标 。 序 列 数据 并 没有 固定 长 度 , 对 于 RNN 来 说 ,恰好 不 
受 输入 长 度 的 限制 ,另外 情感 语义 的 分 析 需 要 参照 上 下 文 , 可 以 利用 RNN 的 记忆 功能 ,而 
LSTM 在 传统 RNN 基础 上 做 了 改进 ,可 以 更 好 地 进行 记忆 和 遗忘 。 所 以 使 用 LSTM 进行 
情感 分 类 是 高 效 简便 的 方式 。 


2. 模型 介绍 


本 实验 运用 Theano 平台 LSTM 的 官方 教程 提供 的 代码 ,网 络 参数 设置 如 下 : LSTM 
隐 层 单元 数 : 128, 同 时 也 是 一 个 词 转 为 一 个 向 量 的 维 数 ; Batch_size: 训练 过 程 为 16 ,验证 
过 程 为 64; 词典 大 小 : 10000, 给 每 个 词 赋予 一 个 ID,ID 号 为 1 一 10000, 词 的 ID 代表 在 
embedding 矩阵 中 的 第 几 行 ; 序列 长 度 : 100, 超 出 序列 长 度 的 部 分 抛弃 。 


3. 优化 方法 


权 值 初始 化 : 使 用 [0,1] 随 机 数 生成 矩阵 ,再 对 随机 和 矩阵 进行 SVD 分 解 ; 网 络 优化 方 
ik. 代码 提供 了 SGD, Adadelta 和 Rmsprop 三 种 方法 ,本 实验 采用 自 适 应 学 习 率 调整 
CAdadelta) ; 损失 函数 : softmax 函数 ,加 L2 范 数 正则 项 。 


4. 实验 结果 


网 络 设置 显示 频率 : 10, 保 存 频 率 : 1110; 验证 频率 : 370。 当 运行 到 显示 频率 ,就 输出 
对 应 的 步 数 ,更 新 代数 ,误差 值 ; 运行 到 保存 频率 ,就 将 当前 参数 保存 ; 运行 到 验证 频率 ,就 
计算 误差 ,并 更 新 最 优 值 。 具 体 显示 如 图 11. 38 所 示 。 
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图 11.38 Theano LSTM 运行 过 程 显示 图 


网 络 的 训练 准确 率 : 99%; 测试 准确 率 : 80. 226; 验证 准确 率 : 86. 7%。 运 行 结果 如 
图 11. 39 所 示 。 
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12.1 数据 集 及 研究 目的 


12.1.1 数据 集 特性 分 析 


合成 孔径 雷达 (Synthetic Aperture Radar,SAR) 首 次 使 用 于 20 世纪 中 期 。 雷 达 的 分 辩 
率 与 孔径 成 正比 ,SAR 的 基本 原理 是 让 雷达 在 一 条 直线 上 运动 ,将 雷达 在 这 条 直线 上 收 到 
的 数据 合成 起 来 ,就 相当 于 一 个 直径 等 于 直线 距离 的 大 孔径 雷达 。 即 使 目标 的 能 见 度 很 差 ， 
SAR 也 可 以 得 到 清晰 的 图 像 。 它 的 特点 是 所 获得 的 图 像 分 辩 率 高 ,可 以 7X24 小 时 工作 ， 
能 发 现 被 遮挡 的 地 物 。 这 些 特 点 使 其 不 仅 在 农林 ,自然 灾害 等 民用 领域 具有 广泛 的 应 用 前 
A ,在 军事 领域 更 具 发 展 潜力 。 
1. 极 化 特性 描述 
移动 天 线 上 产生 的 电力 场 中 的 带电 粒子 就 可 以 产生 电磁 波 , 它 的 传播 不 需要 任何 媒质 ， 
其 具有 极 化 特性 。 
场 的 复 振幅 在 任意 方向 上 可 以 用 如 下 公式 描述 : 
E(r) = Ey + e^t (12.1) 
HG) = Ay + "v", HG) = Ay etm 2,2) 
其 中 e, 是 平行 于 传播 方向 的 单位 矢量 。 从 式 (12. 1) 和 式 (12.2) 可 以 得 出 ,电场 矢量 已 知 ， 


可 求 得 磁场 矢量 ,磁场 矢量 已 知 ,可 求 得 电场 矢量 ,只 讨论 电场 矢量 即 可 。 电 场 矢 量 可 以 表 
示 为 : 


E(r,t) = Re(E, « ewe?) (12. 3) 

将 其 分 解 为 x 分 量 和 y 分 量 : 
EG) = E,(z) * e, + E,(z) ° e, (12. 4) 

4; 
E,(z,t) = E, + cos(w * t —&* z) (12.5) 
Ey,(z.0) = Ey, * cosGw * t —k* z — p) (12. 6) 
如 果 相 位 差 wm 为 0, 合 成 电场 强度 为 : 

E(z,t) = VE + Ej, * coslw t —k* z) a2. 7) 


此 时 的 电场 为 线 极 化 ,如 果 go 为 90, 电 场 为 圆 极 化 ,一 般 情 况 下 ,wm 既 不 等 于 0, 又 不 等 
于 90, 电 场 为 椭圆 极 化 。 


2. 描述 矩阵 


1984 年 ,George Sinclair 描述 了 极 化 散射 矩阵 这 一 理论 ,其 用 一 个 矩阵 元 素 为 复数 的 
二 维和 矩阵 来 描述 。 电 磁 波 发 射 至 散射 体 这 一 过 程 可 表示 为 : 
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E" = Eh * en + E¥ * ev (12.8) 
被 散射 体 弹 回 后 RES I A Fl D i Fe IR JH S Tit «WY Be SH FE 
"n M Ei ehh : Sun Suv 四 EX 

= Deque EV ] r Pa el [5] mem 


其 中 ,上 标 tt 代表 入 射电 磁 波 ,上 标 rr 表示 散射 电磁 波 ,r 代表 地 物 离 发 射电 磁 波 的 地 方 有 
多 远 ,K。 为 电磁 波 的 波 数 。[S] 为 极 化 散射 矩阵 。Snn 、Svv 称 为 同 极 化 分 量 , Suv x Sva PRA 
交叉 极 化 分 量 。 极 化 协 方差 矩阵 [C] 为 
(SunySin》 42i Si). Gui St) 
[C] = |J24Suy Siu? 24Suv»Sav) V2 Guy So) (12. 10) 
(Sw «Sin? 42 (Sw: Sv) (Syw SW) 
Hopes. RARE. RAH MELT 
(Sua + Svv) Gui + Sw)" ) CS + Syv), (San — Svv) * ) GG + Sw)» Sitv) 
LT] = | (Sun — Sw)» (Sua + Sw)" ) GSmi — Sw) + (Sia — Sw)" ) QGii — Sw) Shv? 
GSuy + (San + Sw)" > Suv + (Sun — Sw)? ) (Suy ,Siiv) 
2.11) 














JEP A=Syy + Syy -B=Sun—Syy -C=2S,. 
3. 极 化 SAR 特征 提取 方法 


1) 测量 数据 简单 变换 和 组 合 的 特征 

基于 散射 矩阵 LS] 的 特征 主要 有 : Sun s Svv Suv . Sun + Svv 、Snn 一 Sw 等 。 基 于 功率 测 
量 的 特征 由 矩阵 [TJ 和 [CJ] 中 的 元 素 构 成 。 

2) 目标 分 解 的 特征 

目前 ,目标 分 解 的 方法 主要 有 两 个 : 第 一 个 主要 面向 矩阵 [S$], 是 相干 目标 分 解 ; 第 二 
个 针对 LC] 和 [Tj, 称 为 非 相 干 目标 分 解 。 

第 一 个 方法 是 将 LS] 分 解 成 各 种 地 物 目标 的 LS] 相 加 ,它们 都 代表 了 现实 中 某 种 确定 的 
物理 散射 机 制 ,过程 如 下 : 


[s] = Dia CS]; (12.12) 


其 中 ,[S], 代表 各 种 确定 的 地 物 目 标的 散射 矩阵 , c; 代表 每 种 已 知 地 物 目标 所 占 的 比例 。 

相干 目标 分 解 主要 包括 Pauli, Krogager, Cameron, SSCM 分 解 等 。 因 为 相干 分 解 是 针 
对 极 化 散射 矩阵 的 ,分 解 是 针对 单个 像素 点 的 ,可 以 尽 可 能 地 维持 极 化 SAR 影像 的 原 有 特 
性 。 但 是 相干 分 解 并 没有 考虑 极 化 SAR 图 像 的 相干 斑 噪声 ,也 没有 考虑 一 些 复杂 地 物 目 标 
的 统计 起 伏 性 ,所 以 存在 一 定 的 缺陷 。 所 以 目前 使 用 最 多 的 为 上 文 所 述 的 第 二 种 方法 一 一 
非 相 干 目标 分 解 方法 。 

极 化 非 相干 目标 分 解 的 主要 思想 是 把 [CJ] 或 者 [T] 表 示 为 简单 标准 的 二 阶 描述 子 的 组 
合 , 表 示 为 : 
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cD — p [C]; (12:335 


«rp = 22s CT) a2 


其 中 pi;,g; 表示 系数 ,[C];、[TJ; 表示 分 量 响 应 。 非 相干 分 解 的 方法 包括 Cloude 分 解 、 
Freeman-Durden 分 解 .Huynen 分 解 、Yamaguchi 分 解 等 。 其 中 最 经 典 的 方法 为 Cloude 分 
解 和 Freeman-Durden 分 解 。 

1986 年 ,Cloude 等 人 提出 了 Cloude 分 解 ,这 种 分 解 方法 不 但 可 以 解释 物理 散射 机 制 ， 
还 具有 正 交 散射 机 制 的 优点 。[ 了 可 以 表示 为 三 个 互相 独立 的 相干 矩阵 的 和 。 


3 
[T] = AUT] = hier + ef 十 ae e£ + hes + ef (12. 15) 


其 中 是 特征 向 量 ,是 特征 值 。 
Cloude,Pottier 4E UAT] H 如 下 式 所 示 , 其 用 来 描述 煤 质 散射 的 随机 性 。 


3 
H = >) — (P, « log; P) (12. 16) 
i=] 
Ài 


DA i 

散射 角 a 大 小 为 多 少 要 根据 目标 的 物理 散射 机 制 来 确定 ,a==0 表示 奇 次 散射 (或 称 为 
表面 散射 ) ,a 二 45 表示 偶 极 子 散 射 (或 称 为 体 散 射 ),a= 二 90 表示 偶 次 散射 (或 二 面 角 散 射 )， 
这 里 散射 角 是 一 种 平均 散射 机 制 , 故 记 为 a。 

a = P, +a +P, ° œ +P; ° œ (12. 17) 

H fna 刻画 了 煤 质 散射 特性 ,它们 可 以 将 整个 空间 分 割 成 8 个 部 分 ,每 个 部 分 对 应 着 某 种 
散射 机 制 。 

1998 4E , Freeman, Durden 提出 Freeman-Durden 分 解 方 法 ,给 [CJ] 或 [Tj 建立 了 如 
图 12. 1 所 示 的 三 种 散射 机 制 的 模型 。 


其 中 P, = 





hA 








M 
anco C" 


(+) 表面 散射 (2) 偶 次 散射 (3) 体 散射 
图 12.1 三 种 基本 散射 机 制 











表面 散射 的 [Cj 如 下 式 所 示 : 
ig^ og 
t= s| 0 0 | (12.18) 

& 0 1 
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其 中 B= Re. f, 表示 布拉格 表面 散射 分 量 权 值 系数 。 


偶 次 散射 能 够 用 角 反 射 器 模拟 ,其 中 二 面 角 散 射 分 量 的 [Cj] 如 下 式 所 示 : 
la|? 0 a 











[C —f-| 0 0 0 (12.19) 
a^ 0 1 
其 中 a= Re Ra AR SAS AY AOE AE EUR RKO Re KIR Hb de 9 E EL AE TB IR APL Ru Ry K 
OE AEN Sa 表示 二 面 角 散 射 分 量 的 权 值 系数 。 
体 散 射 的 [CJ] 如 下 式 所 示 : 
s AN: 0/3 
[C], ^ f. - 2/3 0 (12. 20) 
1/3 0 1 








式 (12. 20) B, f, 表示 体 散射 分 量 权 值 系数 。Freeman-Durden 分 解 是 把 LC] 表 示 成 上 述 三 
个 值 之 和 : 
[C] = [C]. - C1. - [C]. (12, 21) 
为 了 求 得 式 (12. 21D ,假设 散射 体 是 对 称 的 ,而 且 是 互 易 的 ,总 的 后 向 散射 模型 表示 
如 下 : 
(Sm 1I — f. lB Harla Hf 
(| Sw 1 — fi fac f. 





(12.22) 
(| Sun Sw |?) = fs e B+ fac ac f,/3 
«| Suy |?) = f,/3 
可 得 到 : 
P,— f. +1819 
shat acca lls (12. 23) 


P, = 8f,/3 

p =P, +Pa +P, = | sm |? +2 | sw 1? +1 sw |? 
P, 是 表面 散射 分 量 的 散射 能 量 , Pa 是 二 面 角 散射 分 量 的 散射 能 量 ,P, 是 偶 极 散射 分 量 的 
散射 能 量 。 


12.1.2 基本 数据 集 


1. 常用 SAR 数据 集 


图 12. 2 是 一 幅 Radarsat 卫星 拍摄 的 水 域 SAR 图 像 , 大 小 为 254X255 ,包含 河 流 与 陆 
地 两 类 地 物 。 
图 12. 3 是 一 幅 位 于 美国 新 墨西哥 州 Albuquerque 地 区 附近 的 RioGrande river 区 域 ， 
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分 辩 率 为 lm, 大 小 为 510X510,Ku 波 段 , 中 间 为 一 个 机 场 跑道 的 三 类 简单 地 物 SAR 图 像 。 
图 12. 4 为 一 幅 美国 加 州 china lake 机 场地 区 的 Ku 波段 SAR 图 像 ,分 辩 率 为 3m, 大 小 
为 256X256, 主 要 包含 三 类 地 物 : 城市 .跑道 和 农田 。 
图 12. 5 为 一 幅 位 于 美国 新 墨西哥 州 Albuquerque 地 区 附近 的 RioGrande river 流域 输 
油管 的 Ku 波段 SAR 图 像 , 分 辩 率 为 lm, ,大 小 为 256 X257, 主 要 包含 三 类 地 物 : 灌木 丛 、 
草地 和 河流 。 








图 12.2 水 域 SAR 图 像 图 12.3 RioGrande river 区 域 





图 12.4 china lake 机 场地 区 图 12.5 RioGrande river 流域 输油管 


2. 常用 PolSAR 数据 集 


1) Flevoland 农田 数据 

Flevoland 数据 是 1989 年 , NASA/JPL 实验 室 AIRSAR 系统 在 L 波段 获得 关于 
Flevoland 的 Netherlands 的 农田 全 极 化 数据 (官方 链接 : http://earth. eo. esa. int/ 
polsarpro/default. html. ) ,该 数据 在 极 化 SAR 分 类 算法 中 被 广泛 使 用 ,而 且 在 分 类 前 未 对 数 
据 进行 滤波 处 理 。 该 数据 大 小 为 750X1024, 其 PauliRGB 图 像 如 图 12. 6(a) 所 示 , 图 12. 6(b) 
是 此 图 的 Groundtruth, 图 12.6(c) 是 此 图 的 颜色 编码 。 

2) Germany 数据 

数据 来 自 Germany 的 Oberpfaffenhofen 地 区 , 它 是 机 载 ESAR 获得 的 L 波段 的 多 视 数 
据 。 本 节选 取 的 图 像 大 小 为 1300X1200, 其 中 主要 包括 三 类 主要 地 物 : 建筑 区 .草木 区 和 空旷 
区 。 该 数据 的 PoliRGB 图 像 如 图 12. 7(a) 所 示 ,图 12.7(b) 是 此 图 的 Groundtruth, 图 12. 7(c) 是 
此 图 的 颜色 编码 。 
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图 12.6 Flevoland 农田 数据 








建筑 区 aE EH 





(c) 








图 12.7 Germany 数据 


3) San Fracisco 数据 
数据 来 自 San Fracisco, 美 国 ,拍摄 时 间 为 2008 年 4 月 ,分 辨 率 为 10X5m, 本 文选 取 的 
图 像 大 小 为 1800X1380, 其 中 主要 包括 五 类 不 同 的 区 域 : 海洋 、 植 被 ,发 达 区 域 、 人 口 密集 度 
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集中 的 城区 和 人 口 密集 度 低 的 城区 。 该 数据 的 Pauli RGB 图 像 如 图 12. 8(a) 所 示 , 图 12. 8b) 
是 此 图 的 Ground truth, K| 12. 8(c) 是 此 图 的 颜色 编码 。 
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图 12.8 San Francisco 数据 


12.1.3 研究 目的 


SAR 图 像 地 物 分 类 ,也 称 为 SAR 土地 覆盖 (Land-Cover) ,是 SAR 图 像 的 一 个 重要 应 
FA. SAR 地 物 分 类 的 主要 任务 是 利用 SAR 图 像 自身 特性 与 其 他 手段 来 确定 对 应 区 域 所 属 
的 地 物 类 别 。 但 是 由 于 成 像 方式 特殊 ,与 光学 图 像 相 比较 ,SAR 图 像 可 读 性 较 差 ,场景 理解 
比较 困难 ,这 就 导致 了 SAR 图 像 地 物 分 类 异常 困难 。SAR 地 物 分 类 使 用 的 特征 描述 主要 
是 以 下 三 个 方面 。 


1. 电磁 散射 特征 


由 于 SAR 成 像 系统 工作 在 微波 波段 ,因此 具有 不 同 材料 及 不 同 结构 的 地 物 对 不 同 波段 
的 电磁 波 具 有 不 同 的 后 向 散射 特性 。 基 于 此 ,通过 建立 雷达 后 向 散射 系数 与 不 同类 型 地 物 
之 间 的 关系 可 以 对 被 观测 场景 中 的 不 同 地 物 类 型 进行 有 效 区 分 。 

例如 : 通过 对 城区 图 像 中 由 不 同 建筑 结构 引起 的 单 边 反 射 \ 双 边 反 射 及 三 边 散 射 特性 
进行 分 析 并 用 于 城市 监测 和 分 类 。 通 过 对 ERS-1、JERS-1 及 SIR-C 卫星 的 平均 散射 系数 与 
中 央 亚 马 逊 河流 的 热带 雨林 的 覆盖 密度 之 间 关 系 的 研究 发 现 ,具有 较 长 波长 的 电磁 波 , 如 工 
波段 ,对 植被 密度 的 变化 较为 敏感 ,而 具有 较 短 波长 的 电磁 波 ,如 C 波段 ,对 植被 与 干旱 的 
裸 地 之 间 的 区 分 能 力 较为 有 限 。 因 此 位 于 工 波段 的 日 本 ALOS PALSAR 系列 卫星 所 获取 
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的 SAR PAAR BE P E D LT AER RR AR st i f E E ds R AE M TE RC PE] PE RI A a 
等 领域 。 

L. Hess 等 学 者 通过 对 1994 年 4 月 到 10 月 巴西 玛瑙 斯 市 附近 的 亚马逊 河流 域 受 济 滩 
区 及 各 种 植被 的 SIR-C 多 频 SAR 数据 进行 分 类 (水 域 , 牧 场 , 水 生 植物 , 非 渡 森林 及 水 流 森 
林 ) 的 研究 结果 表明 ,C 波段 及 波段 的 电磁 波 能 很 好 区 分 这 几 类 不 同 的 地 物 。 同 时 研究 结 
果 也 表明 HH 极 化 方式 对 水 淹 植 被 的 区 分 能 力 较 好 ,而 工 波段 的 交叉 极 化 数据 对 木质 及 非 
木质 植被 的 区 分 能 力 较 强 。 基 于 C 波段 RADARSAT- I PÆ KWN gdi. Y. Inoue 等 学 者 
对 水 稻 长 势 的 研究 结果 表明 C. 波段 的 雷达 后 向 散射 系数 与 光合 有 效 辐射 比 (frAction of 
Photosynthetically active Radiation,fAPRA) 具 有 和 较 高 的 线性 相关 性 ,可 被 用 于 监测 水 稻 的 
生长 状态 。 

众多 的 研究 结果 表明 ,通过 对 多 种 不 同 地 物 的 后 向 散射 机 制 进行 研究 能 有 效 对 各 种 不 
同 地 物 类 型 进行 分 类 ,特别 是 波段 的 电磁 波 对 不 同 的 植被 具有 良好 的 区 分 能 力 。 通 常情 
况 下 ,SAR 图 像 的 后 向 散射 特征 对 电磁 波 固定 散射 特性 与 地 物 类 别 之 间 关 系 模型 的 依赖 度 
较 高 。 实 际 应 用 中 ,如果 能 对 依赖 模型 获取 准确 的 先 验 知 识 , 则 通过 后 向 散射 特性 可 以 准确 
地 判别 各 种 不 同 地 物 类 别 而 无 须 额外 的 “监督 ”信息 。 然 而 对 后 向 散射 信息 的 准确 提取 过 分 
依赖 于 SAR 图 像 的 准确 校正 \ 详 细 且 精确 的 成 像 参 数 以 及 大 量 全 面 数据 分 析 的 专业 知识 。 
因此 其 难以 广泛 应 用 于 不 同 SAR 成 像 系统 及 不 同 成 像 参 数 下 所 获取 的 SAR 图 像 。 与 此 同 
时 ,大 量 全 面 的 数据 分 析 需 要 耗费 专业 的 人 力 资源 去 读 取 、 检 索 及 判别 SAR 图 像 的 内 容 ,这 
无 疑 又 增加 了 SAR 系统 获取 图 像 信息 的 时 间 及 人 力 成 本 。 与 此 同时 , 随 着 SAR 图 像 空间 
分 状 率 的 不 断 提升 ,中 低 分 辨 图 像 所 得 到 的 散射 模型 是 否 依旧 适用 于 高 分 辨 SAR 图 像 仍 是 
一 个 值得 商检 的 问题 。 


2. 强度 或 幅度 的 统计 特征 


当 SAR 图 像 的 空间 分 辩 率 较 低 时 ,雷达 的 回 波 信号 中 包含 了 一 个 分 辩 单 元 中 的 所 有 基 
本 散射 体 的 回 波 。 受 分 状 单 元 内 散射 体 多 样 性 (不 同形 状 、 不 同 材质 不 同 距 离 等 ) 的 影响 ， 
所 接收 的 雷达 回 波 在 相位 上 会 产生 严重 的 不 相干 现象 。 因 此 ,通过 对 雷达 的 连续 脉冲 回 波 
进行 相干 处 理 之 后 ,各 个 分 辨 单元 内 散射 体 的 差异 导致 所 形成 的 SAR 图 像 中 含有 大 量 颗粒 
状 的 变化 模式 ,这 种 现象 通常 被 称 为 相干 班 。 在 SAR 图 像 中 ,这 种 相干 斑 现 象 不 是 噪声 ,其 
中 包含 着 SAR 传感器 及 被 观测 地 物 的 特定 信息 ,因此 ,对 各 种 不 同 的 地 物 类 型 的 相干 斑 进 
行 统计 建 模 也 是 对 SAR 特征 提取 重要 的 研究 内 容 之 一 。 

近年 来 ,大 量 的 统计 模型 被 用 于 对 SAR 图 像 中 不 同 地 物 的 相干 斑 统 计 模 型 进行 建 模 ， 
并 成 功用 于 SAR 图 像 地 物 分 类 及 相干 斑 抑 制 , 主 要 包括 指数 .Gamma、Weibull、 对 数 正 态 
(log-NormaD & K 分 布 等。 具体 来 说 ,在 SAR 图 像 处 理 领 域 中 较为 常见 的 概率 同 分 布 模 
型 及 其 使 用 场景 如 表 12. 1 所 示 。 基 于 这 些 统计 分 布 ,对 SAR 图 像 的 分 类 问题 可 视 为 一 个 
参数 估计 问题 。 通 过 一 个 精确 的 参数 估计 过 程 , 如 经 典 的 最 大 似 然 估计 , 矩 估计 或 者 对 数 矩 
估计 等 ,各 种 不 同 的 地 物 可 以 通过 对 应 分 布 的 参数 进行 描述 。 
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R121 部 分 常见 的 对 SAR 图 像 进 行 统计 建 模 的 概率 分 布 






































统计 模型 概率 表示 应 用 场景 
指数 2 一 二 exp( 一 二) 匀 质 场景 , 单 视 SAR 强度 数据 
Gamma Ko-Rs(z)e(-2) 多 视 SAR 强度 数据 
Weibull sco (7 Yee(- (2) ) 低 异 质 性 的 SAR 强度 数据 
Rayleigh pco een ( 72 ) 单 视 匀 质 SAR 幅 值 数据 
EE | . (logz—m)’ 非常 异 质 性 表面 ,如 城区 SAR 
对 数 正 态 PD- — ew (— KE 
Nakagami-Rice aC) m ee ( Jr, [o MARE | z cM 
= 1 2LM . [L Hera 
K AD 一 FOOD : M (EM eu) T e Kus 中 度 异 质 SAR 幅度 或 强度 数据 
(E ) 
Fisher P= rane - ispum 各 类 SAR 图 像 幅度 或 强度 数据 
(2+ (a) ) 
e p= Ene REA 各 类 SAR 图 像 幅度 或 强度 数据 


IIa) yna)" 








3. SAR 图 像 特征 提取 及 学 习 


与 后 向 散射 特性 及 统计 模型 不 同 的 是 ,SAR 图 像 特 征 提取 与 学 习 过 程 是 对 人 类 的 视觉 
机 理 过 程 进行 模拟 ,借助 计算 机 对 SAR 图 像 进行 自动 分 析 和 理解 ,以 提取 相关 信息 对 各 种 
SAR 地 物 类 型 进行 描述 。 由 于 与 传统 光学 图 像 的 成 像 机 理 不 同 ,对 SAR 图 像 的 特征 提取 
与 学 习 更 为 困难 。 

在 各 种 视觉 特征 描述 中 ,通过 对 SAR 图 像 上 相隔 一 定 距 离 的 两 个 像素 灰 度 值 之 间 的 空 
间 关 系 进 行 统计 分 析 可 得 到 灰 度 共生 和 矩阵 (Gray Level Co-occurrence Matrix. GLCMD ,并 
由 此 计算 各 种 纹理 描述 子 对 SAR 图 像 中 不 同 地 物 纹理 进行 描述 。 较 为 常用 的 纹理 描述 统 
HRA FRE TR, f — EAE OSETERE / 25 SE 5] TE 22 i RUPES 2E RAE. HE 
些 纹理 描述 子 ,L. Soh 等 学 者 对 海 冰 分 类 的 研究 结果 表明 在 灰 度 共生 和 矩阵 的 计算 中 ,像素 之 
间 的 间隔 要 比方 向 因子 对 海 冰 分 类 性 能 影响 更 为 明显 。 由 于 对 灰 度 共生 矩阵 的 计算 代价 是 
SAR 图 像 像 素 距离 和 角度 的 矩阵 函数 .因此 完整 的 灰 度 共生 和 矩阵 计算 是 费时 费力 的 。 此 外 
对 SAR 图 像 的 分 类 任务 而 言 ,如 何 选 取 合适 的 统计 方向 、 统 计 距 离 等 参数 以 充分 有 效 地 提 
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取信 息 对 SAR 图 像 进行 描述 在 实际 中 也 是 一 大 挑战 。 

与 由 灰 度 共生 和 矩阵 所 计算 得 到 的 纹理 描述 子 不 同 的 是 : 图 像 的 局 部 性 特征 提取 也 是 近 
年 来 SAR 特征 提取 的 重要 方面 。 各 种 多 尺度 多 方向 滤波 器 组 ,小 波及 二 代 小 波 变换 等 也 被 
广泛 应 用 于 SAR 图 像 特征 描述 。 其 中 ,Gabor 滤波 器 的 尺度 和 方向 表示 更 接近 人 类 视觉 系 
统 对 频率 和 方向 的 表示 ,因而 被 广泛 应 用 于 描述 SAR 图 像 中 地 物 的 结构 信息 。 基 于 离散 小 
波 变换 ,M. Tello 等 学 者 通过 利用 变换 后 的 各 个 变换 子 带 之 间 的 空间 关系 和 船舶 及 海洋 的 
统计 行为 对 SAR 图 像 中 的 舰 船 目标 进行 鲁 棒 有 效 的 监测 。 除 了 小 波 变换 之 外 ,大 量 二 代 小 
波 变换 ,如 bandlet 变换 、contourlet 变换 、curvelet 变换 及 ridgelet 变换 等 也 被 用 于 获取 
SAR 图 像 在 各 种 尺度 及 方向 上 的 特征 表示 ,并 用 于 SAR 图 像 的 分 类 及 分 割 操作 。 相 对 于 
SAR 图 像 的 特征 信息 提取 而 言 ,众多 的 小 波及 二 代 小 波 变 换 等 被 广泛 用 于 SAR 图 像 去 斑 
及 压缩 。 近 年 来 ,F. Dellinger 等 研究 者 通过 结合 SAR 图 像 的 统计 分 布 特性 ,将 计算 机 视觉 
领域 被 广泛 使 用 的 SIFT(Scale Invariant Feature Transform) 特 征 扩展 到 SAR 图 像 应 用 领 
域 ,用 于 从 SAR 图 像 中 提取 关键 点 及 对 应 的 局 部 描述 子 SAR-SIFT。 然 而 ,对 于 这 些 局 部 
性 特征 来 说 ,一 个 比较 关键 的 问题 是 如 何 选取 合适 的 尺度 及 方向 等 参数 ,以 对 具体 的 SAR 
图 像 应 用 提供 充分 有 效 的 信息 ,特别 是 SAR 图 像 分 类 。 

除了 这 些 基 本 的 特征 之 外 , 随 着 机 器 学 习 技 术 的 不 断 发 展 , 大 量 中 层 及 高 层 特征 也 被 用 
于 描述 SAR 图 像 的 内 容 。 其 中 , 词 袋 模型 (Bag-of-Words,BoW) 作 为 最 简单 的 中 层 特征 提 
取 方 法 被 广泛 应 用 于 描述 SAR 图 像 。J. Feng 等 学 者 提出 一 个 像素 级 词 袋 模型 ,并 通过 人 
工 免疫 系统 对 该 模型 中 的 各 参数 进行 优化 ,以 实现 对 SAR 图 像 进行 表示 及 分 类 。 通 过 将 
LDA 与 BoW 表示 进行 结合 ,R. Bahmanyar 等 研究 者 提出 一 种 主题 包 模 型 (Bag-of-Topics， 
BoT) 并 用 于 提取 SAR 图 像 中 的 语义 级 特征 。 除 此 之 外 ,针对 SAR 图 形 的 成 像 特性 S6 d 
表示 也 被 广泛 应 用 于 SAR 图 像 及 极 化 SAR 图 像 分 类 。 

近年 来 , 随 着 深度 学 习 (Deep learning,DL) 理 论 被 广泛 研究 及 应 用 ,他 们 也 被 广泛 用 于 
SAR 图 像 特征 提取 。J. Geng 等 学 者 通过 一 个 深度 卷 积 自 编码 器 (Deep Convolutional Auto 
Encoder,DCAE) 对 SAR 图 像 自 动 提取 特征 并 用 于 地 物 分 类 操作 。 该 深度 卷 积 自 编码 器 通 
过 一 个 卷 积 层 提取 SAR 图 像 中 的 纹理 特征 ,一 个 尺度 变换 层 引 入 邻 域 信息 ,四 个 稀 朴 自 编 
码 层 对 所 提取 的 纹理 特征 进行 优化 及 分 类 及 两 个 后 处 理 层 ,与 其 他 的 手工 特征 相 比 而 言 ,该 
深层 结构 能 从 SAR 图 像 中 自动 提取 判别 特征 并 用 于 分 类 操作 。 同 时 ,C. Bentes 等 研究 者 
提出 一 个 深度 神经 网 络 (Deep Neural Network,DNN) 对 海洋 SAR 图 像 中 的 海洋 研究 设备 
目标 进行 检测 。 通 过 该 深层 结构 中 的 隐 单 元 可 以 直接 从 原始 SAR 图 像 数 据 学 习 一 个 层次 
表示 对 其 进行 描述 。 同 时 ,CNN 也 被 广泛 应 用 于 SAR 自动 目标 识别 , 双 极 化 SAR 海 冰 浓 
度 估 计 等 各 种 应 用 中 的 特征 提取 及 学 习 。J. Ding 学 者 通过 约束 特征 向 量 之 间 的 相似 性 引 
入 监督 信息 ,提出 一 种 基于 相似 性 约束 受 限 玻 尔 兹 曼 机 (Restricted Boltzmann Machine, 
RBM) ,在 对 SAR 图 像 中 的 目标 进行 识别 的 结果 表明 该 方法 能 得 到 比 主 成 分 分 析 (Principal 
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Component Analysis,PCA) 及 原始 深度 置信 网 络 更 好 的 识别 性 能 。 

通过 将 这 些 从 SAR 图 像 中 提取 出 的 特征 ,无论 是 低层 的 纹理 描述 子 还 是 中 层 或 者 高 层 
特征 ,结合 一 定量 的 标记 数据 训练 监督 及 半 监 督 分 类 器 ,如 支撑 向 量 机 (Support Vector 
Machine. SVM), 神经 网 络 (Neural Network. NN). 随机 森林 ,逻辑 回归 (Logistic 
Regression, LR) & AdaBoost 等 对 SAR 图 像 中 不 同 的 地 物 进 行 分 类 。 与 此 同时 ,在 实际 应 
用 中 ,各 种 SAR 图 像 特征 也 被 结合 在 一 起 用 于 SAR 图 像 描 述 ,如 在 多 种 分 类 系统 中 ， 
Gabor 滤波 特征 和 纹理 描述 子 通常 被 结合 在 一 起 以 对 不 同 的 SAR 地 物 获取 更 为 丰富 的 信 
息 。C. O. Dumitru 等 研究 者 对 高 分 辨 SAR 图 像 中 各 种 信息 提取 方法 及 与 SAR 图 像 的 成 
像 参数 之 间 的 关系 进行 综述 及 比较 。 

Bete SAR 理论 在 全 世界 得 到 广泛 应 用 ,其 应 用 涉及 军用 民用 等 多 个 方面 。 我 们 利用 极 
化 SAR 影像 可 以 获得 更 多 更 准确 的 信息 ,这 些 信息 可 以 应 用 在 农林 、 城 市 建设 ,地 质 灾害 预 
防 等 多 个 领域 。 由 此 可 见 , 极 化 SAR 影像 的 解 译 尤为 重要 。 如 何 实现 它 是 如 今 遥 感 领域 的 
热点 ,而 地 物 分 类 这 一 内 容 则 是 其 中 重要 的 研究 内 容 之 一 , 它 将 获得 的 极 化 SAR 影像 单独 
提取 出 来 进行 研究 ,快速 并 且 精 确 地 实现 极 化 SAR 影像 地 物 分 类 为 实现 后 续 解 译 步骤 提供 
了 基础 。 极 化 SAR 影像 地 物 分 类 首先 是 获取 到 极 化 SAR 系统 从 空中 观测 到 的 地 物 信息 ， 
然后 将 每 一 个 像素 点 进行 分 类 ,给 予 每 个 像素 点 不 同 的 类 别 标记 。 


12.2 基于 深度 神经 网 络 的 SAR 影像 地 物 分 类 


12.2.1 基于 自 适 应 自 编码 和 超 像素 的 SAR 图 像 分 类 


本 方法 首先 利用 一 种 新 颖 的 基于 Gamma 分 布 的 异 质 超 像素 分 割 方法 对 SAR 图 像 进 
行 超 像素 预 分 割 ,考虑 到 了 像素 间 的 相关 性 ,将 噪声 信息 的 干扰 降 到 最 低 , 然 后 在 预 分 割 的 
每 一 小 块 区 域内 ,基于 自 适应 稀 疏 自 编码 器 的 分 类 方法 ,加 入 图 像 的 多 尺度 特征 ,最 终 利用 
rhe NN aia laa acl 
像 的 均值 信息 来 进一步 优化 分 类 结 

本 文 所 应 Vote ww 它 通过 自 适 应 局 部 结构 的 种 子 膨胀 实 
现 超 像素 分 割 ,并 利用 曲率 演化 模型 的 骨架 化 过 程 , 将 复杂 的 超 像素 分 割 难题 转化 为 易 解 的 
几何 流 问题 ,最 终 将 图 像 分 割 成 网 格 状 的 超 像 素 。 不 但 保留 了 图 像 的 边界 信息 ,还 利用 紧凑 
度 约束 条 件 限制 了 图 像 的 过 分 割 , 效 率 也 较 高 。 

SAR 图 像 在 边缘 分 界 清晰 , 匀 质 或 强 边界 的 情况 下 , 超 像素 能 很 好 地 保留 图 像 的 边界 
信息 ,形成 的 超 像素 内 包含 的 像素 为 同一 类 地 物 对 象 ,但 在 噪声 比较 严重 的 弱 边 界 ,很 难 准 
确 地 分 割 ,因此 算法 在 弱 边界 区 域 形成 的 超 像 素 内 可 能 包含 了 两 类 对 象 。 

SAR 图 像 的 统计 模型 在 地 物 目 标的 检测 与 识别 .相干 斑 噪声 的 消除 .地 物 目 标的 分 类 
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等 处 理 中 起 着 非常 重要 的 作用 。Gamma 分 布 符合 地 球 表面 大 部 分 地 物 的 统计 特征 , 故 
SAR 图 像 被 认为 服从 Gamma 分 布 。Goodman(1975) 根 据 SAR 图 像 中 相干 斑 噪 声 模型 ,证 
明了 在 区 域 均 匀 的 假设 下 ,SAR 强度 图 像 满足 Gamma 分 布 。 

Gamma #34} 45 2 BE pa BON ; 


f@) = 一 一 
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TO 

Hep, umo Ht, fn =0,0(06>0) 8 gamma 4r fi f 8 BE S o (07700 Jg. Gamma 分 布 的 
形状 参数 ,也 是 异 质 性 参数 ,T(，) 是 Gamma 函数 ; 即 可 以 利用 Gamma 分 布 中 的 形状 参数 
作为 能 找 出 异 质 超 像 素 的 指标 。 根 据 极 大 似 然 法 原理 ,可 推 得 式 (12. 24) 中 vb 的 样本 估算 
X. 一些 具 体 结果 如 图 12.9、 图 12. 10 HER 12. 2、 表 12. 3 所 示 。 


(12. 24) 





图 12.9 SAR 图 像 原始 超 像 素 分 割 1 图 12.10 SAR 图 像 原始 超 像 素 分 割 2 


表 12.2 超 像素 及 其 极 大 似 然 估计 的 异 质 性 参数 v 的 展示 





编号 (a) (b) Cc) (d) (e) 




















超 像 素 
" 2.2163 1.6288 | 2.47 2.6166 1.2751 
编号 (CD | @ 
超 像 素 























v 6. 2724 11. 6956 | 5.5426 7.1817 7.8516 
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R123 超 像素 及 其 极 大 似 然 估计 的 异 质 性 参数 v 的 展示 





























编 号 (a) (b) GG) (D C) 
超 像素 
v 1. 3310 2. 3295 2. 5067 
编 号 (CD (g) G 
超 像素 
v 1. 4450 13. 9820 3. 7984 14. 1388 33. 4903 




















可 以 看 出 , 表 12.2 和 表 12. 3 中 前 五 个 超 像素 是 异 质 超 像素 , 异 质 性 系数 都 比 后 五 个 同 
质 超 像素 小 。 因 此 , 超 像素 中 像素 的 异 质 性 系数 越 小 ,说 明 此 超 像 素 存 在 异 质 即 包含 两 类 地 
物 的 可 能 性 越 大 ; 异 质 性 系数 越 大 ,说 明 存 在 异 质 即 包含 两 类 地 物 的 可 能 性 越 小 。 

堆栈 自 编码 器 可 以 逐 层 提取 SAR 图 像 每 个 像素 深层 特征 ,这 些 深 层 特征 具有 更 好 的 不 
变性 和 可 分 性 ,为 图 像 分 类 提供 完备 的 特征 需求 。 但 随 着 SAR 图 像 分 辩 率 的 提高 ,相干 斑 
噪声 越 来 越 严 重 , 不 同 地 物 的 异 质 性 相差 很 大 ,固定 尺度 的 初始 特征 取 块 已 经 不 能 满足 要 
求 , 故 提出 自 适应 堆栈 自 编码 的 策略 。 

以 一 个 像素 点 为 中 心 ,K XK 的 窗口 尺寸 取 其 邻 域 , 将 其 拉 成 (K XK) X1 的 特征 列 向 
量 , 以 步 长 为 1 顺序 取 的 整 幅 SAR 图 像 全 部 像素 点 的 特征 向 量 构造 成 一 组 (KXK)X1 的 
列 向 量 特 征 作为 自 编码 输入 ,通过 自 编 码 器 训练 得 到 一 组 特征 向 量 。 

对 每 个 像素 取 一 固定 尺寸 的 矩形 窗 N ,对 和 矩形 窗 内 的 像素 作 异 质 性 参数 估计 ,以 闷 值 
m 作为 界限 ,将 异 质 性 参数 小 于 m 的 矩形 窗 ( 即 该 区 域 粗 糙 度 过 大 ) 从 中 心 像 素 扩大 到 
NiCN 二 N), 异 质 性 参数 大 于 疡 的 矩形 窗 ( 即 该 区 域 粗糙 度 过 小 ) 不 改变 , 即 仍 为 N, 以 便 
所 选取 的 区 域 能 更 准确 地 代表 这 个 区 域 的 特征 。 

由 于 自 编 码 器 的 输入 必须 是 一 组 维度 相等 的 列 向 量 ,所 以 必须 将 不 同和 矩形 窗 拉 成 的 列 
向 量 维度 统 一 , 故 将 所 有 (NXN)XX1 的 列 向 量 降 维 到 (NXN)X1, 利 用 整 幅 SAR 图 像 所 
有 像素 点 工 组 成 一 个 INXN) X 工 维 的 训练 数据 集 U. 
利用 上 述 基 于 自 适应 堆 释 自 编码 的 特征 提取 方法 加 入 多 尺度 特征 信息 经 SVM 分 类 得 
到 的 样本 集 V 的 分 类 标签 结果 : Label, 对 异 质 超 像素 过 分 割 的 每 一 个 小 块 1 的 标签 进行 
优化 ,得 到 每 一 个 小 块 的 最 终 标 签 。 步 又 如 下 : 

CD 通过 自 编码 特征 提取 步骤 ,分 别 取 Ll 和 L2 两 个 尺度 进行 自 适 应 堆 释 自 编码 结构 
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特征 提取 。 

(2) 融合 多 尺度 特征 ,输入 SVM 分 类 器 对 其 进行 分 类 得 到 数据 集 V 的 分 类 标签 结果 。 

(3) 根据 样本 集 V. 的 分 类 标签 Label, 读 取 每 一 个 点 的 标签 Labell), Label G) RIR EE 
本 集 V 的 第 i 个 点 的 标签 值 。 

OD 对 原始 SAR 图 像 进行 异 质 超 像 素 预 分 割 ,可 以 得 到 若干 超 像 素 : UD sns 
Ic} I; #78 SAR 图 像 通 过 异 质 超 像素 预 分 割 后 的 第 j 个 超 像 素 ,其 中 j 二 1,2,…,C,C 表示 
预 分 割 的 超 像素 数 ,对 于 每 一 个 超 像素 1, ,统计 分 布 在 超 像素 L 中 像素 的 标签 Label(i) , 求 
得 超 像 素 石 中 属于 每 一 类 标签 的 像素 数 。 

(5) 在 每 一 个 超 像素 石 中 ,引入 KNN 算法 ,k 的 大 小 为 每 一 个 超 像素 内 的 像素 数 , 根 
据 步骤 (4) 中 得 到 的 每 一 类 标签 的 像素 数 ,选择 超 像 素 L 内 像素 数 最 多 的 那 一 类 的 标签 p 
作为 本 超 像 素 的 标签 。 

O 将 超 像素 石 内 所 有 像素 的 标签 均 重 置 为 p, 则 p 为 该 超 像素 的 最 终 标签 。 

利用 三 幅 SAR 图 像 数 据 来 验证 本 章 算法 的 有 效 性 ,对 比试 验 采 用 加 入 多 尺度 特征 未 
加 超 像 素 的 算法 、 加 入 传统 超 像素 算法 、 多 尺度 局 部 模式 直方 图 (MLPH) 和 局 部 原始 模 
式 (LPP) 。 实 验 数 据 如 12. 1. 2 节 所 述 , 主 要 从 图 像 的 单 类 精度 、 总 体 精度 以 及 Kappa 系 
数 对 比 来 对 本 章 的 算法 做 评价 。 本 章 在 所 有 试验 中 ,基于 自 适应 稀疏 自 编码 器 的 SAR 图 
像 分 类 方法 选择 两 个 隐 含 层 的 网 络 , 即 两 层 自 编码 神经 网 络 , 我 们 的 第 一 层 和 第 二 层 的 
隐 层 节点 个 数 相应 地 分 别 取 为 80 和 64。 在 输入 自 适 应 取 块 中 ,我 们 先 取 7X7 的 矩阵 ， 
SER PEKS PR ELH 0. 3 ,将 异 质 性 小 于 0. 3 的 像素 选取 矩阵 扩大 到 11X11 经 过 训练 得 到 一 
组 特征 ,再 取 9X9 的 矩阵 , 异 质 性 的 阔 值 取 0. 3 ,将 异 质 性 小 于 0. 3 的 像素 选取 和 矩阵 扩大 
到 13X13 经 过 训练 得 到 一 组 特征 。 并 且 根 据 图 像 背 景 图 ,随机 地 选择 训练 数据 ,将 剩余 
的 数据 作为 我 们 的 测试 集 ,来 验证 算法 的 优势 。 训 练 数据 和 测试 数据 的 大 小 比值 大 致 为 
1:9, 

图 12. 11 G0 Se — i GL T 160b, v ap Ai RE AKA I — 28 2 SS 1 Je il IRA pot dg 
多 阴影 ,所 以 纹理 比较 复杂 ,为 分 类 处 理 增 加 了 难度 。 从 对 比试 验 中 可 以 看 出 ,图 12. 1100 
是 本 实验 未 加 超 像素 用 了 第 3 章 的 自 适应 自 编码 但 加 入 了 多 尺度 信息 所 做 的 分 类 实验 , 通 
过 对 比 发 现 , 加 入 了 本 文 所 提出 的 异 质 超 像素 ,使 草坪 区 域 的 错 分 孤立 点 减少 了 ,灌木 丛 的 
区 域 一 致 性 变 好 了 ; 图 12. 11(d) 是 加 入 了 原始 Turbopixels 超 像素 的 实验 ,对 比 可 以 发 现 ， 
特别 是 灌木 从 区 域 , 加 入 了 本 文 所 提出 的 异 质 超 像素 , 较 好 地 保留 了 灌木 从 的 边界 轮廓 ， 
使 其 形状 完好 ,上 且 区 域 连续 性 增强 了 ; 通过 与 实验 图 12. 11(e)MLPH 方法 对 比 ,该 方法 
较 好 地 保留 了 原 图 的 细节 特点 ,如 河流 的 中 心 区 域 部 分 。 通 过 与 实验 图 12. 1100 LPP 方 
法 对 比 ,防止 了 灌木 区 对 草坪 区 的 影响 ,降低 了 草坪 区 的 错 分 率 。 表 12.4 给 出 了 算法 的 
准确 率 对 比 。 
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(d) 加 原始 超 像素 结果 


图 12. 11 


o 


(b) 本 章 算法 结果 


p 


(e) MLPH 结 果 








(f) LPP 结 果 


针对 Flevoland 的 SAR 图 像 分 类 结果 对 比 图 


表 12.4 分 类 算法 准确 率 对 比 (Flevoland 农田 数据 ) 

















分 类 算法 草坪 精度 灌木 从 精度 河流 精度 总 体 精度 Kappa 系数 
本 章 算法 94.79 89.17 91.18 90. 25 0. 88 
未 加 超 像素 92.48 65.17 89. 74 79. 39 0. 68 
加 原始 超 像素 92.73 66.91 85. 22 712. 14 0. 63 
MLPH 91.05 77.32 84.32 81.03 0.69 
LPP 78.66 812.14 89. 73 82.44 0. 70 




















图 12. 12 20 J& — EL A T t6, HEL AM cv SR A — 2/8 52. 20e TT a (0 
纹理 比较 复杂 ,是 SAR 图 像 中 较为 难 分 的 一 类 地 物 。 从 对 比试 验 中 可 以 看 出 ,图 12. 1200 
是 本 实验 未 加 超 像素 用 了 第 3 章 的 自 适应 自 编码 但 加 入 了 多 尺度 信息 所 做 的 分 类 实验 , 通 
过 对 比 发 现 , 加 入 了 本 文 所 提出 的 异 质 超 像素 ,使 草坪 区 域 的 错 分 孤立 点 减少 了 ,有 效 地 抑 
制 了 噪声 的 影响 ,使 城市 区 域 一 致 性 变 好 了 ,比较 完好 地 保留 了 城市 区 的 形状 及 细节 特征 
图 12. 12(d) 是 加 入 了 原始 Turbopixels 超 像素 的 实验 ,对 比 可 以 发 现 ,特别 是 城市 区 域 ,加 
入 了 本 文 所 提出 的 异 质 超 像 素 , 较 好 地 保留 了 城市 的 边界 轮廓 ,使 其 形状 完好 , 且 区 域 连续 
性 增强 了 ; 通过 与 实验 图 12. 12(e)MLPH 方法 对 比 , 本 章 方法 较 好 地 抑制 了 噪声 的 影响 ， 
增强 了 均匀 区 域 的 连续 性 。 通 过 与 实验 图 12. 12(f)LPP 方法 对 比 ,本 章 算法 对 城市 区 域 形 
状 保留 完好 , 且 降 低 了 草坪 区 的 错 分 率 。 表 12. 5 给 出 了 各 类 算法 的 准确 率 对 比 。 
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(a) 原 图 (b) 本 章 算法 结果 (©) 未 加 超 像素 结果 





(d) 加 原始 超 像素 结果 (e) MLPH 结 果 (f) LPP 结 果 
图 12.12 对 Germany 数据 的 SAR 图 像 分 类 结果 对 比 图 


表 12.5 分 类 算法 准确 率 对 比 (Germany 数据 ) 

















分 类 算法 城市 精度 跑道 精度 草坪 精度 总 体 精度 /% Kappa 系数 
本 章 算法 62.37 90. 47 96.49 93. 62 0. 90 
未 加 超 像素 58. 64 90. 10 94.72 89. 40 0. 82 
加 原始 超 像 素 24. 30 90.77 95. 43 88.01 0.81 
MLPH 65.95 81.08 95. 75 83. 88 0. 73 
LPP 43. 30 85.17 82.46 80. 35 0. 69 

















图 12.13(a) 是 一 幅 包 含 了 草地 、 轨 道 和 灌木 从 的 三 类 复杂 地 物 , 特 别 是 灌木 从 中 有 很 
多 阴影 ,所 以 纹理 比较 复杂 ,为 分 类 处 理 增加 了 难度 。 从 对 比试 验 中 可 以 看 出 ,图 12. 13(c) 
是 本 实验 未 加 超 像素 用 了 第 3 章 的 自 适 应 自 编码 并 加 入 了 多 尺度 信息 所 做 的 分 类 实验 , 通 
过 对 比 发 现 , 加 入 了 本 节 所 提出 的 异 质 超 像素 ,使 草坪 区 域 的 错 分 孤立 点 减少 了 ,灌木 从 的 
区 域 一 致 性 变 好 了 且 对 轨道 的 形状 保留 完好 ; 图 12. 13(d) 是 加 入 了 原始 Turbopixels 超 像 
素 的 实验 ,对 比 可 以 发 现 , 特 别 是 灌木 从 区 域 , 加 入 了 本 节 所 提出 的 异 质 超 像素 , 较 好 地 保留 
了 灌木 从 的 边界 轮廓 ,使 其 形状 完好 , 且 区 域 连续 性 增强 了 ; 通过 与 实验 图 12. 13(e)MLPH 
方法 对 比 ,本 章 方法 有 效 地 抑制 了 灌木 丛 区 对 草坪 区 的 影响 ,减少 了 草坪 区 和 轨道 区 的 错 分 
孤立 点 。 通 过 与 实现 图 12. 13(fD)LPP 方法 对 比 ,本 章 算法 增强 了 灌木 从 区 的 区 域 一 致 性 。 
R 12.6 列 出 了 各 类 算法 的 准确 率 对 比 。 


ae 优化 与 识别 
p Gens. maig 





(a) 原 图 (b) 本 章 算法 结果 (c) 未 加 超 像素 结果 





(d) 加 原始 超 像素 结果 (e) MLPH 结 果 (DLPP 结 果 
图 12. 13 对 San Francisco 数据 的 SAR 图 像 分 类 结果 对 比 图 


表 12.6 分 类 算法 准确 率 对 比 (San Francisco 数据 ) 

















分 类 算法 草坪 精度 灌木 从 精度 跑道 精度 总 体 精度 Kappa 系数 
本 章 算法 912.27 62.54 89.54 93. 61 0.91 
未 加 超 像 素 97.88 29. 67 81.35 88.05 0.82 
加 原始 超 像素 93.72 7.97 87. 49 80. 38 0. 82 
MLPH 92.54 16. 76 84.44 77.43 0. 62 
LPP 97.13 18. 03 87.83 812.45 0. 83 

















本 方法 的 区 域内 错 分 孤立 的 点 很 少 ,一 致 性 比较 好 ,并 且 边 缘 清 晰 ,细节 信息 保存 完整 ， 
根据 本 章 的 算法 得 到 的 分 类 效果 图 能 准确 地 对 SAR 图 像 的 地 物 进行 分 类 ,边缘 轮廓 清晰 准 
确 , 从 而 证 明了 基于 自 适应 堆 释 自 编码 和 异 质 超 像素 的 SAR 图 像 分 类 算法 的 有 效 性 。 应 用 
本 方法 与 采用 加 入 多 尺度 特征 未 加 入 超 像 素 的 算法 、 加 入 传统 超 像素 算法 .MLPH 和 LPP, 
进行 实验 分 类 精度 对 比 ,从 多 个 方面 观测 自 适 应 堆 释 自 编 码 器 可 以 自动 提取 有 效 的 特征 ,本 
章 提出 的 方法 的 实验 结果 误 分 率 明显 变 小 ,从 视觉 效果 上 看 出 本 算法 消除 了 边缘 不 整齐 的 
问题 ,每 一 块 区 域 的 内 部 没有 错 分 的 点 , 比 上 一 章 基于 自 适应 堆 释 自 编 码 的 初始 分 割 结果 效 
果 更 加 理想 ,这 一 点 可 以 从 图 12. 12 的 城市 区 域 . 图 12. 11 和 图 12. 13 的 灌木 丛 区 域 明 显 


12.2.2 基于 卷 积 中 层 特征 学 习 的 SAR 图 像 分 类 
SAR 图 像 分 类 技术 是 对 单 幅 图 像 中 的 不 同 地 物 进行 分 类 , 间 袋 模型 应 用 于 SAR 图 像 
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分 类 问题 中 必须 首先 将 单 幅 SAR 图 像 分 割 成 几 百 或 上 千 个 极 小 的 匀 质 区 域 ,因此 初始 预 分 
割 技术 的 边缘 保持 性 将 严重 影响 最 终 的 分 类 结果 ,同时 由 于 每 个 极 小 的 匀 质 区 域 像素 数量 
有 限 ,提取 的 直方 图 特征 很 难 具有 高 度 的 判别 性 。 受 卷 积 神经 网 络 的 启发 ,提出 基于 卷 积 的 
中 层 特征 提取 方法 。 将 每 个 像素 的 特征 与 视觉 单词 进行 卷 积 后 最 大 值 池 化 作为 中 层 特征 ， 
改进 了 经 典 词 袋 模 型 应 用 于 SAR 图 像 时 的 不 足 ,获得 了 良好 的 分 类 效果 。 

研究 已 经 表明 人 类 视觉 系统 对 具体 方向 和 空间 频率 都 比较 敏感 。 图 像 的 频率 信息 能 够 
反映 图 像 灰 度 信息 的 变化 程度 。 实 验 表明 应 用 Gabor 滤波 器 实 部 进行 滤波 能 够 实现 图 像 
平滑 ,应 用 Gabor 滤波 器 虚 部 进行 滤波 能 够 实现 边缘 检测 。 

通过 设置 Gabor 函数 的 参数 值 ,我们 可 以 获得 不 同形 状 的 滤波 器 ,进而 抓 取 不 同 的 纹 
理 结构 。 对 二 维 Gabor 小 波 函 数 进行 傅 里 叶 变 换 得 








1 ru— W)’ ? 
GGu,v) exp] > [ z z *z]] (12, 25) 
JER o — Lo = LL Eg Gr y) A BER REDIERE TE EEE A TL 
z y 

得 到 一 系列 完备 的 非 正 交 基 ,因此 Gobor 小 波 变换 为 
gm (TV) 一 ang(z yy)，aw>>1mcN (12. 26) 
a’ = a "(xcosÜ-- ysin), y = a^" (— xsin + ycos0) (12. 27) 
u = a "(ucosÜ-- vsind), v' = a^" (— usin + vcos) (12. 28) 


其 中 0 二 nx/k, 参 数 上 为 选择 的 不 同方 向 的 数目 ,参数 mm 为 相应 的 不 同 尺度 ,参数 表示 不 
同 的 方向 。 
对 一 幅 图 像 I(z,y) 进 行 Gabor 小 波 变换 可 得 
W.G,y)- f [rcs * Es Gr —a.y — yi dar dy, (12. 29) 


其 中 gh, (zx 一 xi,y 一 1) 表 示 基 函数 gm Cra y — y f d lC. E EAS Fe] JS. BE Fy 
的 变换 后 ,图 像 的 均值 ww 和 方差 cm 分 别 为 


Lenn = [|w.. Grey drdy (12. 30) 


Omn = || (Wain Gr y) — Hmn ) dxdy (12,31) 

最 终 由 图 像 的 均值 ww 和 方差 cw 构 成 的 纹理 特征 向 量 为 
f = (p00 ,aoo spor aol，… * Hm—in—1 *Om—1in-1 ) (12. 32) 
传统 的 字典 学 习 方法 是 应 用 一 种 无 监督 的 学 习 方式 ,如 天 -均值 对 从 图 像 中 采样 得 到 的 
训练 样本 进行 聚 类 。 开 -均值 仅 适 用 于 具有 少数 几 类 简单 匀 质 区 域 的 图 像 ,但 是 对 于 具有 复 
杂 纹 理 信 息 的 SAR 图 像 ,并 不 能 保证 获得 一 个 最 优 的 视觉 词典 。 开 均值 算法 训练 得 到 的 
词典 不 具有 确定 性 和 合理 性 。 为 改进 K- 均 值 算法 而 提出 了 K-SVD 算法 。K-SVD 算法 为 
对 K- 均 值 算法 的 推广 , 当 K-SVD 算法 中 仅 由 一 个 聚 类 中 心 表 示 样 本 点 时 即 为 K- 均 值 

算法 。 
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K-SVD 算法 是 一 个 学 习 字 典 的 优化 算法 。 其 优化 学 习 的 目标 函数 为 
min | Y¥—Dx ||z 
s.t. || XG, lo Toi = 1,2, N (12.33) 
其 中 Y 是 为 算法 输入 的 无 标记 样本 ,D 为 待 训练 的 过 完备 稀 朴 宛 余 字典 ,X 为 应 用 字典 了 
对 样本 Y 进行 表示 的 稀 玻 系数 ,通过 K-SVD 算法 优化 得 到 该 目标 函数 的 最 小 值 。X 中 大 
部 分 值 接近 或 等 于 0. DÀ COS B HL SERE 
通过 已 知 的 训练 样本 Y 优化 得 到 完备 元 余 字 典 DA Ai HL Rs ACC X. 将 是 一 个 非 凸 的 
病态 问题 。 因 此 一 般 的 优化 学 习 方 法 将 是 一 个 求解 局 部 最 优 值 的 过 程 。K-SVD 算法 首先 
固定 字典 D. QC AER ic Ros X, 因 此 问题 转化 为 一 个 普通 进行 稀疏 表示 的 问题 。 初 始 时 字典 
D 为 随机 初始 化 或 应 用 指定 的 训练 样本 进行 初始 化 。 常 用 的 稀疏 表示 算法 为 正 交 匹配 追踪 
算法 (OMP) ,通过 字典 D 优化 得 到 稀 朴 表示 系数 X。 然 后 由 得 到 的 稀 朴 表示 系数 X 来 更 
新 优化 字典 D , 式 (12. 34) 为 字典 D 的 优化 过 程 。 


K 
lY — Dx | 一 |v- Md 
j=l 








2 
F 
, (12. 34) 


- | (v 一 Xu] — dx 
F 


j*k 








= || E, —d,x* ll $ 
其 中 开 为 字典 D 的 总 的 字典 原子 的 个 数 , 即 字典 D 共有 列 ,每 一 列 为 一 个 字典 原子 ; di 
为 字典 D 的 第 上 列 , 即 字典 D 中 第 k 个 字典 原子 ; E, 为 字典 原子 du 的 残 差 。K-SVD 通过 
SVD 奇异 值 分 解 方法 优化 每 个 字典 原子 从 而 减 小 误差 获得 最 优 值 。 

词 袋 模型 中 特征 编码 部 分 为 构建 视觉 词典 ,并 以 视觉 单词 为 基底 提取 直方 图 特征 。 特 
征 编码 步骤 是 一 个 非常 复杂 ,并 且 扁 平 的 单 层 操 作 。 受 卷 积 特征 提取 的 启发 ,将 低层 提取 的 
特征 与 视觉 词典 中 每 个 视觉 单词 进行 卷 积 ,获得 卷 积 特征 作为 词 袋 模型 中 的 特征 编码 步 又 。 
视觉 闻 典 的 构建 应 用 K-SVD 算法 进行 有 监督 训练 ,由 于 SAR 图 像 地 物 分 布 的 不 确定 性 ， 
导致 不 同 地 物 之 间 的 像素 数量 差异 其 殊 。 例 如 一 幅 SAR 图 像 中 大 部 分 面积 是 农田 ,只 有 小 
部 分 为 城市 , 则 K-SVD 进行 初始 化 时 ,初始 化 样本 将 大 部 分 为 农田 样本 ,很 小 一 部 分 样本 
为 城市 ,样本 的 分 布 不 均衡 将 直接 导致 训练 的 视觉 词典 缺乏 代表 性 和 普 适 性 。 为 防止 K- 
SVD 算 法 初始 化 时 样本 分 布 不 均衡 而 陷入 局 部 最 优 , 将 原来 的 随机 初始 化 修改 为 有 监督 地 
对 每 类 地 物 抽 取 相同 数量 级 的 像素 数 进行 初始 化 。 由 于 K-SVD 训练 的 视觉 词典 中 不 同 视 
觉 单词 之 间 能 够 对 初始 样本 进行 稀 玻 完 余 表示 ,因此 每 个 视觉 单词 均 有 一 定 的 代表 性 。 如 
图 12. 14 所 示 为 基于 卷 积 特征 学 习 的 模型 的 框架 结构 ,低层 特征 提取 步骤 为 : 对 待 分 类 的 
SAR 图 像 进行 不 同 尺度 .不 同方 向 上 的 Gabor 小 波 变换 ,并 以 9X9 的 邻 域内 的 均值 和 方差 
作为 每 个 像素 点 的 低层 特征 向 量 ; 应 用 K-SVD 算法 建立 视觉 词典 ,同时 将 每 个 像素 点 的 低 
层 Gabor 特征 向 量 与 视觉 词典 做 卷 积 ,并 通过 最 大 值 池 化 来 降低 每 个 像素 点 的 中 层 卷 积 特 
征 的 维度 ,得 到 中 层 卷 积 特征 ; 最 后 将 中 层 卷 积 特征 输入 到 SVM 分 类 器 中 对 每 个 像素 点 进 
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行 分 类 ,获得 其 类 别 标 SVM 分 类 器 中 对 每 个 像素 点 进行 分 类 ,获得 其 类 别 标签 。 


Gabor 特 征 

























图 12. 14 卷 积 词 袋 模型 框架 结构 图 





首先 对 输入 的 SAR 图 像 分 别 在 六 个 尺度 (f= 二 7. 8769, f — 4. 5310, f — 4. 0960, f 
3. 9084, f —3. 5804, f = 2. 6806), — ^4 Jr [a] (0 = 0°, 0 = 60°, 0 = 120°) 进行 加 窗 傅 里 叶 
(Gabor) 变 换 , 每 个 像素 点 取 其 9X9 邻 域 中 在 不 同 尺度 和 方向 的 变换 域内 的 均值 和 方差 作 
为 其 低层 Gabor 特征 Fy = i; ser Ty] CP N Eo fi A SAR 图 像 中 的 像素 个 数 ,也 
表示 每 个 像素 点 提取 的 特征 向 量 ,zE[1,.2,…'N]。 显 然 五 的 维度 大 小 为 1X36。 通 过 
K-SVD 算法 训练 得 到 视觉 词典 。 首 先 对 字典 D 进行 有 监督 的 初始 化 ,不 同类 别 的 地 物 采 
样 同 数量 级 的 像素 的 低层 Gabor 特征 来 初始 化 字典 D, 有 效 避 免 了 初始 样本 分 布 不 均衡 
的 可 能 。 然 后 应 用 K-SVD 算法 训练 一 个 过 完备 的 稀疏 元 余 字 典 D。 该 过 程 的 具体 步 又 
如 下 : 

CD 对 每 类 地 物 的 低层 特征 Gabor 特征 进行 随机 采样 ,得 到 训练 样本 ,每 类 地 物 的 训练 
样本 的 特征 向 量 维 度 是 50X36; 

(2) 选择 前 K 个 像素 点 的 特征 向 量 来 初始 化 字典 D ; 

(3) 固定 字典 卫 , 利 用 正 交 匹配 追踪 算法 对 字典 D 进行 稀 朴 表示 ,得 到 稀 朴 表示 稀 
WX; 

(4) HED BOE X 对 字典 也 进行 K 次 迭代 ,更 新 字典 DD, 更 新 规则 为 优化 目标 函数 : 
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(12. 35) 














= pe 
= min | E, 一 Dix? | 
每 次 迭代 对 进行 奇异 值 CSVD) 分 解 并 更 新 D; .使 得 目标 函数 值 最 小 ,其 中 E, 去 掉 字 典 D, 
的 重 构 误差 ,T 为 应 用 OMP 进行 稀 朴 表示 得 到 稀疏 系数 X 中 非 零 元 素 的 个 数 的 最 大 值 。 
3 EIE T 的 设置 来 达到 稀 朴 表示 的 目的 。 
将 视觉 词典 D 与 低层 Gabor 特征 进行 卷 积 与 池 化 ,得 到 中 层 卷 积 特征 。 由 于 每 个 像素 
点 的 低层 Gabor 特征 向 量 分 别 与 字典 D 中 每 个 字典 原子 进行 卷 积 ,每 个 像素 点 的 特征 从 
1x36 维 变 化 为 KX36 维 ,由 于 每 个 像素 点 的 特征 维度 变 大 ,并 且 考 虑 图 像 的 静态 特性 ,可 
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以 对 由 卷 积 得 到 的 特征 进行 最 大 值 聚 合 ,降低 特征 维度 ,最 终 得 到 中 层 卷 积 特征 Fo 

接着 应 用 SVM 预测 场景 类 标 。SVM 分 类 器 中 核 函 数 设置 为 高 斯 核 函 数 ,首先 对 深层 
特征 F 进行 随机 采样 训练 SVM 模型 参数 ; 然后 将 全 部 像素 点 的 深层 特征 Fo 输入 已 训练 
好 的 SVM 分 类 模型 中 进行 分 类 ,获得 分 类 结果 R , 共 分 为 C 类 场景 。 

图 12.15(a) 为 一 幅 大 小 为 256X256 的 Radarsat 水 域 SAR 图 像 。 该 SAR 图 像 共 包含 
两 类 简单 地 物 : 河流 、 陆 地 。 图 12.15(b) 为 K-BOW 方法 对 图 12. 15(a) 进 行 分 类 得 到 的 结 
果 。 由 图 12. 15(b) 可 得 K-BOW 方法 应 用 于 该 SAR 图 像 进行 分 类 时 , 受 噪声 影响 严重 ,将 
许多 陆地 区 域 错 分 为 了 河流 ,分 类 准确 率 较 低 。 图 12. 15(c) 为 GMM-BOW 方法 对 图 12. 15(a) 
进行 分 类 得 到 的 结果 。 由 图 12. 15(c) 可 得 GMM-BOW 方法 较 K-BOW 有 了 一 定 的 改进 ， 
但 背景 和 河流 的 边界 分 类 模糊 ,这 一 结果 是 由 于 词 袋 模型 中 层 直方 图 特征 未 能 有 效 区 分 不 
同类 别 地 物 的 原因 。 图 12. 15(d) 为 本 章 所 提出 的 算法 对 图 12. 15(a) 进 行 分 类 得 到 的 结果 。 
由 图 12.15(d) 可 得 本 章节 提出 的 方法 准确 率 最 高 , 且 区 域 一 致 性 效果 最 好 ,边缘 保持 良好 。 
由 表 12.7 可 知 本 章 提出 的 改进 算法 的 分 类 结果 从 准确 率 和 Kappa 系数 两 个 评价 指标 方面 
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(a) Radarsat 原 图 (b) K BOW (c) GMM BOW (d) Cony BOW 





图 12.15 Radarsat 水 域 SAR 图 像 分 类 结果 


表 12.7 Radarsat 水 域 SAR 图 像 分 类 结果 评价 指标 














算 法 K-BOV | GMM-BOV Conv-BOV 
准 确 率 94. 81 | 96. 58 97.17 
Kappa 系数 0. 9059 | 0. 9364 0. 9541 








图 12. 16(a) 为 一 幅 位 于 美国 新 墨西哥 州 Albuquerque 地 区 附近 的 RioGrande river 区 
域 ,分 辨 率 为 1m, 大 小 为 256X256 的 Ku 波段 SAR 图 像 。 该 SAR 图 像 中 共 包 含 三 类 地 
物 : 农田 植被 及 河流 。 图 12.16(b) 为 K-BOW 方法 对 图 12. 16(a) 进 行 分 类 得 到 的 结果 。 
由 图 12. 16(b) 可 得 K-BOW 方法 应 用 于 该 SAR 图 像 进行 分 类 时 , 受 品 声 影响 严重 ,植被 与 
农田 区 域 边界 分 类 模糊 ,边缘 不 够 平滑 , 且 将 许多 农田 区 域 错 分 为 了 植被 ,存在 严重 的 错 分 
现象 。 图 12. 16(c) 为 GMM-BOV 方法 对 图 12. 16(a) 进 行 分 类 得 到 的 结果 。 由 图 12. 16(c) 
可 得 GMM-BOV 算法 应 用 于 该 SAR 图 像 进 行 分 类 时 ,将 大 量 植 被 错 分 为 了 农田 区 域 , 即 
GMM-BOW 方法 比较 适合 于 分 类 纹理 简单 的 地 物 , 如 农田 、 河 流 等 ,但 对 于 含有 复杂 纹理 区 
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域 的 图 像 ,分 类 结果 较 差 ,因此 该 算法 应 用 于 分 类 时 ,存在 一 定 的 局 限 性 。 图 12. 16(d) 为 本 
章节 算法 对 图 12. 16(a) 进 行 分 类 得 到 的 结果 。 由 图 12. 16(d) 可 得 本 章 提 出 的 算法 对 含有 
植被 复杂 纹理 的 SAR 图 像 分 类 精确 ,能 够 正确 区 分 植被 及 其 周围 的 阴影 区 域 ,对 小 目标 提 
取 完 整 。 同 时 与 K-BOW 算法 和 GMM-BOW 算法 相 比 ,本 章节 提出 的 算法 能 够 更 好 地 保 
持 区 域 一 致 性 ,不 同 地 物 交界 处 边缘 分 类 精确 ,无 毛刺 现象 。 可 见 基于 卷 积 特征 学 习 的 
SAR 图 像 方法 不 仅 能 够 有 效 区 分 农田 、 河 流 等 简单 地 物 ,对 于 植被 等 复杂 地 物 同 样 具有 优 
良 的 分 类 性 能 。 由 表 12. 8 可 知 本 章 提出 的 改进 算法 的 分 类 结果 在 准确 率 和 Kappa 系数 两 
方面 均 优 于 前 面 两 个 对 比 算法 。 








(a) Radarsat 原 图 (b)K BOW (c) GMM BOW (d) Conv BOW 


图 12.16 RioGrande river 水 域 SAR 图 像 分 类 结果 


表 12.8 RioGrande river 水 域 SAR 图 像 分 类 结果 评价 指标 

















算 法 K-BOV GMM-BOV Conv-BOV 
准 确 率 91.53 93. 62 94. 37 
Kappa 系数 0. 8194 0. 8372 0. 8526 


图 12. 17 a) 为 一 幅 位 于 美国 加 州 某 一 区 域 ,分 辩 率 为 3m, 大 小 为 256 X256,Ku 波段 
SAR 图 像 。 该 图 共 包 含 三 类 地 物 : 跑道 ,路 面 和 建筑 。 图 12. 17(b) 为 K-BOW 方法 对 
图 12. 17(a) 进 行 分 类 得 到 的 结果 。 由 图 12. 17(b) 可 得 K-BOW 方法 应 用 于 该 SAR 图 像 进 
行 分 类 时 ,跑道 边缘 分 类 模糊 ,边缘 分 类 不 够 精确 ,在 跑道 与 路 边 的 交界 处 ,将 路 面 错 分 为 了 
跑道 , 且 忽 略 了 一 些 细小 纹理 ,同时 将 建筑 周围 的 阴影 错 分 为 了 建筑 ,存在 严重 的 错 分 现象 ， 
从 而 影响 了 分 类 准确 率 。 图 12. 17(c) 为 GMM-BOW 方法 对 图 12. 17(a) 进 行 分 类 得 到 的 结 
果 。 由 图 12.17(c) 可 得 GMM-BOW 方法 应 用 于 该 SAR 图 像 进 行 分 类 时 ,跑道 区 域 受 噪声 
影响 严重 ,存在 严重 的 错 分 现象 , 且 在 跑道 与 路 面 的 交界 处 附近 ,将 跑道 错 分 为 了 路 面 ,同时 
对 图 像 中 的 细小 纹理 分 类 错误 ,分 类 效果 较 差 。 图 12. 17(d) 为 本 章 提出 的 方法 对 图 12. 17(a) 
进行 分 类 得 到 的 结果 。 由 图 12. 17(d) 可 得 本 章 提出 的 方法 应 用 于 该 SAR 图 像 进行 分 类 
时 , 弱 边 缘分 类 正确 ,小 目标 提取 完整 ,对 含有 跑道 复杂 纹理 的 SAR 图 像 能 够 保持 较 好 的 
域 一 致 性 。 由 表 12. 9 可知 本 章 提出 的 改进 算法 的 分 类 结果 在 准确 率 和 Kappa 系数 两 方面 
均 取 得 了 最 好 的 统计 值 。 
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(a) 加 州 原 图 (b)K BOW (c) GMM BOW (d) Conv BOW 


图 12.17 美国 加 州 某 区 域 SAR 图 像 分 类 结果 


表 12.9 美国 加 州 某 区 域 SAR 图 像 分 类 结果 评价 指标 




















算 法 K-BOV GMM-BOV Conv-BOV 
ME Wn 率 93.89 94. 76 95.83 
Kappa 系数 0. 8769 0.8873 0.9217 


Zi E Brie ,本 章 提出 的 基于 卷 积 特征 学 习 的 SAR 图 像 分 类 方法 中 提取 的 卷 积 特征 能 够 
弱化 噪声 的 同时 增强 原 有 的 数据 结构 ,同时 能 够 抓 取 图 像 的 细节 纹理 ,边缘 分 类 清晰 同时 保 
持 良好 的 匀 质 性 ,有 效 提高 了 分 类 准确 率 。 


12.3 ”基于 第 一 代 深度 神经 网 络 的 PolSAR 影像 地 物 分 类 


12.3.1 Jc ARERR TE DBN 的 极 化 SAR 地 物 分 类 


1. 模型 介绍 一 一 稀疏 极 化 DBN 模型 的 构建 


构造 基于 稀 朴 DBN 的 四 层 稀 朴 深 度 网 络 , 包 括 一 个 输入 层 , 两 个 隐 含 层 和 一 个 分 类 
层 , 最 后 的 分 类 层 使 用 人 工 神经 网 络 (NN) 模 型 产生 最 终 的 网 络 输出 。 可 视 层 的 节点 数 是 
由 数据 的 基础 特征 数 决定 的 ,基础 特征 可 根据 上 述 的 特征 提取 阶段 得 到 , 即 为 300, 也 就 是 
说 稀疏 DBN 的 可 视 层 节点 数 为 300; 第 二 层 和 第 三 层 隐 含 层 节点 数 分 别 为 150、100, 这 是 
经 过 多 次 实验 得 到 的 比较 好 的 隐 层 节点 数 ; 输出 层 是 针对 极 化 SAR 地 物 分 类 的 NN BUS, 
因此 输出 节点 数 为 数据 的 类 别 数 。 稀 朴 极 化 DBN 学 习 本 章 中 使 用 对 比 散 度 算法 对 稀疏 深 
度 网 络 的 前 三 层 进行 逐 层 预 训练 ,计算 两 个 隐 含 层 的 输出 值 和 各 层 之 间 的 权 值 及 偏 置 。 下 
面 将 给 出 本 章 算法 对 极 化 SAR 地 物 分 类 的 详细 分 类 步骤 : 

CD 输入 极 化 SAR 数据 的 特征 ,根据 12. 2 节 计算 特征 ; 

(2) 构建 稀疏 极 化 DBN ,并 确定 各 个 参数 0 二 {W ,a,b),W,a,b 分 别 是 权 值 .可 视 层 偏 
置 和 隐 含 层 偏 置 ; 

(3) 对 可 视 层 输入 wv? 进行 正 向 传播 ,计算 出 隐 含 层 的 输出 hs s 

CD 对 隐 含 层 的 输出 h 进行 反 向 传播 ,得 到 ul ; 
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(5) 结合 参数 ,更 新 模式 参数 0 二 (W «a b) ,参数 的 变化 量 是 : 


AW; =A, (EL[v? +m ]—E[vl- Al) +A. Dae (— hi) + vi (12.36) 
i=l 


Aa; = A, * CE[v?] — E[v1 D +A- oat. Oh) (12. 37) 
i=l 


Ab; =A, * (ŒE [k] — E [k (12. 38) 

(6) 重复 计算 步骤 (3) 一 (5) ,直至 收敛; 

CD 将 上 述 得 到 的 v} 作为 下 一 次 的 可 视 层 v? ,然后 重复 步骤 (3) 一 (7) ,直至 各 层 训 练 
结束 ; 

(8) 根据 NN BUS ,对 稀 朴 极 化 DBN 进行 预 训练 ; 

(9) 使 用 反 向 传播 算法 的 有 限 内 存 的 BFGSCLBFGS) 算 法 对 整个 稀 朴 深度 网 络 进行 微 
调 ,优化 分 类 网 络 中 的 各 种 参数 ,完成 稀 朴 深度 网 络 的 训练 ; 

(10) 利用 训练 好 的 稀疏 极 化 DBN 对 待 分 类 的 极 化 SAR 数据 地 物 分 类 ,得 到 极 化 SAR 
地 物 分 类 结果 。 


2. 实验 结果 与 分 析 


1) Flevoland 农田 数据 实验 的 结果 

实验 随机 选取 了 每 类 1000 个 样本 作为 训练 样本 ,剩余 的 样本 均 为 测试 样本 。 此 幅 图 像 
分 辩 率 较 低 ,类 别 数 较 多 ,每 一 类 的 总 数 相差 甚 远 ,所 以 一 般 分 类 方法 的 误差 都 会 比较 大 。 
图 12. 18(a) 为 DBN 的 分 类 结果 图 ,图 12. 18(b) 为 本 节 提 出 的 算法 的 实验 结果 图 。 从 图 中 
可 以 看 到 本 节 提 出 的 算法 在 很 大 程度 上 优 于 深度 信念 网 络 DBN。 图 中 蓝 色 的 区 域 为 水 , 粉 
色 区 域 为 植物 A 等 ,后 者 比 前 者 分 类 的 效果 更 好 一 些 , 而 且 几 乎 没有 太 多 的 分 类 错误 ,但 是 
后 者 在 橘 色 区 域 也 就 是 油菜 地 和 士 黄色 区 域 宰 地 分 类 的 效果 没有 前 者 好 ,而 且 后 者 从 视觉 
效果 来 说 ,分 类 效果 是 十 分 理想 的 。 从 正确 率 上 而 言 , 本 节 提 出 的 算法 在 经 过 多 次 实验 得 到 
的 正确 率 均值 为 0.946 ,而 原 算法 的 正确 率 仅 为 0. 926 ,从 总 体 而 言 本 文 提 出 的 算法 要 优 于 
原 算法 。 在 时 间 上 ,本 节 提 出 的 算法 时 间 为 3876. 3s, 原 算法 的 时 间 为 5790. 6s, 在 一 定 程度 

















图 12.18 深度 信念 网 络 DBN 与 本 章 算 法 对 Flevoland 农田 数据 的 实验 结果 图 
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上 也 加 快 了 分 类 的 速率 。 表 12.10 是 两 种 算法 在 Flevoland 农田 数据 上 的 结果 显示 ,可 以 
看 出 本 节 提 出 的 算法 在 大 多 数 的 类 别 上 是 优 于 原 算法 的 。 但 是 本 节 提 出 的 算法 对 有 些 类 别 
分 类 的 结果 特别 的 差 , 对 有 些 类 别 分 类 的 效果 特 好 ,使 得 分 类 的 结果 走向 两 个 极端 ,因此 存 
在 很 大 的 不 稳定 性 。 

表 12.10 深度 信念 网 络 与 本 章 算法 在 Flevoland 农田 数据 上 的 正确 率 











种 类 深度 信念 网 络 DBN 本 章 算法 
AA 0. 918 0. 932 
OA 0. 926 0. 946 











2) Germany 数据 实验 的 结果 

实验 随机 选取 了 每 类 10000 个 样本 作为 训练 样本 ,剩余 的 样本 均 为 测试 样本 。 此 幅 图 
像 分 辨 率 较 上 幅 图 像 有 明显 提高 ,类别 数 只 有 三 类 ,但 是 从 原 图 可 以 看 出 本 图 的 边缘 信息 特 
别 多 ,而 且 边 缘 比 较 圆 ,不 利于 分 类 的 进行 。 图 12. 19(a) 为 深度 信念 网 络 DBN 的 分 类 结果 
图 ,图 12. 19(b) 为 本 节 提 出 的 算法 的 实验 结果 图 。 从 图 中 可 以 看 到 本 节 提 出 的 算法 在 很 大 
程度 上 优 于 深度 信念 网 络 DBN ,而且 红色 区 域 可 以 看 出 本 节 算 法 的 分 错 率 更 低 一 些 。 
表 12. 11 是 两 种 算法 在 Germany 数据 上 的 正确 率 。 从 正确 率 上 而 言 ,本 节 提 出 的 算法 在 经 
过 多 次 实验 得 到 的 正确 率 均值 为 0.7465 ,而 原 算法 的 正确 率 仅 为 0.7235, 从 总 体 而 言 本 文 
提出 的 算法 要 优 于 原 算法 ,再 从 各 个 类 别 的 正确 率 来 看 , 仅 有 第 一 类 Built-up areas 前 者 分 
类 较 好 ,后 两 类 均 是 本 节 算法 较 好 。 在 时 间 上 ,本 文 提出 的 算法 时 间 为 40912. 4s, 原 算法 的 
时 间 为 5475. 4s, 在 一 定 程度 上 也 加 快 了 分 类 的 速率 。 











图 12.19 深度 信念 网 络 DBN 与 本 章 算法 对 Germany 算法 的 实验 结果 图 


表 12.11 深度 信念 网 络 与 本 章 算法 在 Germany 数据 上 的 正确 率 








统计 量 深度 信念 网 络 DBN 本 章 算法 
AA 0. 684667 0. 694333 
OA 0. 7235 0. 7465 
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3) San Francisco 数据 的 实验 结果 

实验 随机 选取 了 每 类 10000 个 样本 作为 训练 样本 ,剩余 的 样本 均 为 测试 样本 。 此 幅 图 
像 的 分 辩 率 较 高 ,类别 数 为 五 类 ,对 图 像 特 征 提取 要 求 得 更 多 。 图 12. 20(a) 为 深度 信念 网 
络 DBN 的 分 类 结果 图 ,图 12. 20(b) 为 本 节 提 出 的 算法 的 实验 结果 图 。 从 图 中 可 以 看 到 本 
节 提 出 的 算法 在 很 大 程度 上 优 于 深度 信念 网 络 DBN ,尤其 是 蓝 色 海洋 区 域 ,前 者 有 太 多 的 
散 点 噪声 。 如 表 12. 12 所 示 , 从 正确 率 上 而 言 , 本 节 提 出 的 算法 在 经 过 多 次 实验 得 到 的 正确 
率 均值 为 0.933 ,而 原 算 法 的 正确 率 仅 为 0. 839, 从 总 体 而 言 本 节 提 出 的 算法 要 优 于 原 算法 。 
从 各 个 类 别 上 来 看 ,有 四 个 类 别 的 正确 率 是 高 于 原 算 法 的 ,而 且 最 后 一 类 原 算法 几乎 没有 分 
出 来 。 在 时 间 上 ,本 节 提 出 的 算法 时 间 为 7098. 5s, 原 算法 的 时 间 为 9870. 6s, 在 一 定 程度 上 
也 加 快 了 分 类 的 速率 。 











(a) (b) 





图 12. 20 ”深度 信念 网 络 DBN 与 本 章 算法 对 San Francisco 数据 的 实验 结果 图 


表 12.12 深度 信念 网 络 与 本 章 算法 在 San Francisco 数据 上 的 正确 率 











统计 量 深度 信念 网 络 DBN 本 章 算法 
AA 0. 807 0. 833 
OA 0. 839 0. 933 











本 节 首 先 介绍 了 深度 学 习 的 快速 发 展 以 及 其 被 广泛 应 用 的 原因 ,其 次 介绍 了 极 化 SAR 
在 分 类 上 所 过 到 的 一 些 难题 以 及 使 用 深度 学 习 解 决 极 化 SAR 的 难题 后 出 现 的 新 的 问题 ,及 
数据 量 过 大 ,会 影响 分 类 的 速率 的 问题 。 因 此 本 节 提 出 引入 稀 蚊 性 的 方法 就 可 以 更 好 地 解 
决 运算 速率 过 低 的 问题 。 文 章 中 也 介绍 了 极 化 SAR 数据 的 特征 提取 方法 , 较 大 多 数 极 化 
SAR 特征 的 提取 而 言 ,本 节 的 方法 比较 简单 而 且 节 省 了 大 量 的 时 间 , 还 保留 了 极 化 SAR 的 
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所 有 原始 特征 ,使 其 在 后 续 的 应 用 中 能 保证 信息 的 完整 性 。 最 后 就 是 构建 网 络 模型 ,网络 的 
学 习 以 及 实验 的 结果 。 可 以 得 出 ,本 节 的 方法 在 一 定 程度 上 可 以 很 好 地 分 类 极 化 SAR 数 
据 , 并 且 分 类 时 间 会 大 大 缩短 ,分 类 精度 也 有 所 提升 。 


12.3.2 基于 深度 PCA 网 络 的 极 化 SAR 影像 地 物 分 类 


1. 模型 介绍 


在 极 化 SAR 影像 地 物 分 类 领域 中 ,提出 了 一 种 简单 的 基于 深度 PCA 网 络 的 极 化 SAR 
影像 地 物 分 类 方法 ,该 深度 PCA 网 络 主要 由 以 下 部 分 组 成 : 级 联 的 主 成 分 分 析 (PCA) ,二 
值 化 与 直方 图 统计 。 深 度 PCA 网 络 中 ,PCA 用 来 学 习 多 层 的 级 联 滤波 器 。 单 层 深度 PCA 
网 络 的 训练 方法 可 被 描述 为 : 

COD. 由 于 分 别 对 极 化 SAR 影像 中 的 每 个 像素 进行 分 类 ,将 每 个 像素 的 输入 数据 转换 为 
元 胞 数组 LER” ,其 中 i 表示 第 i 个 训练 样本 。 分 别 对 元 胞 数组 I; 中 的 每 一 个 元 素 施行 
非 零 填充 的 重 又 取 抉 zi sE Lise € Rh 75 ,其 中 块 大 小 为 Xks ,元 胞 数组 1 中 的 第 j 
个 矢量 块 用 ziv 表 示 。 随 后 ,通过 矢量 块 的 均值 移 除 操作 ,获得 X; = Dna Bizet + Tim Jo 
X BG VIL ARE AS DUET RH I P 2D dic P (8 X — X. WX, eX JE Rh No ,训练 样本 总 数 


设置 成 N。 
(2) 最 小 化 重 构 误差 ,提取 单 层 的 PCA 滤波 器 , 则 有 : 
min |X—V-V'-Xl?. stV*VT—I, (12. 39) 
vestis 


其 中 工 代 表单 层 PCA 滤波 器 数量 ,LL 为 大 小 是 工 XL 的 单位 矩阵 , 式 (12. 39) 的 解 即 X e XT 
的 前 工 个 主 特征 向 量 。 由 此 可 见 ,深度 PCA 网 络 单 层 的 PCA 滤波 器 可 被 描述 为 : 
Wi = mat, 4, (qj (X * XT) € RA: ,1 = 1,2,°%,L (12. 40) 
JEP pK mat, a, Co) ABER lly fit v € Re 映射 到 矩阵 WE Rh og, (X + XT) HABER X + XT 
的 前 7 个 主 特征 向 量 。 
G) 计算 输出 , 即 此 层 的 第 /个 滤波 器 与 输入 进行 卷 积 后 的 结果 : 
EK=1,*W}, i—1il2..N (12. 41) 
其 中 N 为 训练 样本 的 总 量 , Ao 2D 卷 积 。 将 此 层 滤波 器 卷 积 的 结果 , 即 输出 ,用 作 深度 
PCA 网 络 下 一 层 的 输入 数据 。 
深度 PCA 网 络 除 最 后 一 个 训练 层 外 ,其 他 每 层 仅 执行 卷 积 滤波 器 层 和 非 线性 处 理 层 。 
最 后 一 个 训练 层 的 特征 池 化 层 处 理 策 略为 : 
CD 对 卷 积 结果 做 二 值 化 操作 。 
AJH KUH A; * WF) 六 :对 深度 PCA 网 络 最 后 一 个 训练 层 的 滤波 器 卷 积 得 到 的 输出 
结果 做 二 值 化 处 理 , 其 中 HC * ) 为 单位 阶 跃 函 数 , 正 数 作为 输入 则 函数 输出 为 1, 否则 ,函数 
输出 为 0; 
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(2) 二 值 化 结果 执行 十 进 制 数值 化 操作 。 
将 二 值 化 后 的 输出 看 作 一 组 工 位 二 进 制 向 量 ,将 该 组 L 位 二 进 制 向 量 转换 成 一 个 十 进 
制 数值 : 
T- Seo Hal x W2) (12. 42) 


(3) 利用 块 直 方 图 对 十 进 制 化 结果 进行 统计 。 

本 节 中 对 得 到 的 对 应 的 十 进 制 数值 的 输出 图 像 Ti 1— 1.2. Li ETT ER S KE 
实验 数据 设 定 块 的 大 小 和 直方 图 取 块 的 步 长 ,通过 直方 图 统计 对 全 部 子 块 中 的 十 进 制 值 进 
行 计算 , 若 块 的 个 数 是 B, 组 合 B 个 直方 图 块 对 应 的 十 进 制 化 结果 ,构成 一 个 向 量 Bhist(T}) 。 
通过 深度 PCA 网 络 的 训练 ,I; 所 对 应 的 特征 集合 可 以 通过 向 量 Bhist(Ti) 得 到 表征 。 下 面 
的 算法 给 出 了 本 节 算法 的 具体 实现 策略 : 

算法 12.1 


基于 深度 PCA 网 络 的 极 化 SAR 影像 地 物 分 类 算法 
. 采用 精致 极 化 LEE 滤波 法 3X 3 窗口 滤波 ,按照 第 3. 3. 1 节 中 的 方法 获得 深度 PCA 网 络 的 输入 
数据 ; 
.选取 部 分 有 标记 数据 用 来 训练 ,其 余 的 用 作 测 试 ; 
.训练 第 一 层 深度 PCA 网 络 ; 
. 训练 第 二 层 深度 PCA 网 络 ; 
.对 第 二 层 的 训练 结果 进行 特征 池 化 ; 
. 训练 SVM 分 类 器 ; 
.对 未 标记 样本 进行 预测 分 类 ; 
.计算 准确 率 ,显示 结果 。 
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2. 实验 结果 与 分 析 


1) Germany 地 区 实验 设置 和 实验 结果 分 析 

在 这 一 小 节 中 ,我 们 选用 1989 年 获取 的 荷兰 Flevoland 地 区 的 工 波段 的 地 物 数 据 来 进 
行 实验 ,训练 样本 每 类 选取 1000 个 , 共 15 类 。 首 先 ,利用 精致 Lee 滤波 法 处 理 原 始 数据 , 然 
后 ,将 Flevoland 影像 的 每 一 个 极 化 SAR 像素 作为 一 个 处 理 单位 ,通过 从 协 方差 矩阵 C 中 
提取 出 9 个 独立 的 元 素 ,并 与 数据 分 布 特征 参数 a、 散射 特征 和 偏振 特征 进行 组 合 归 一 化 ， 
作为 深度 PCA 网 络 的 原始 输入 数据 。 其 中 图 12. 21(d) 为 利用 该 算法 所 获得 的 分 类 结果 
图 ,图 12.21(a) 一 图 12.21(c) 分 别 为 针对 PCA,SVM 和 Wishart 三 种 对 比方 法 的 分 类 结果 
图 。 通 过 图 12. 21 和 表 12. 13 可 以 明显 地 看 出 ,本 节 所 提出 的 算法 能 够 准确 有 效 地 区 分 各 
类 地 物 数据 ,少数 类 别 的 地 物 分 类 正确 率 可 以 到 达 100%, 且 所 有 类 别 的 地 物 分 类 正确 率 均 
高 于 95%。 无 论 是 从 整体 分 类 精度 还 是 从 单个 类 别 的 分 类 精度 考虑 ,本 节 算法 均 优 于 其 他 
三 种 方法 ,大 大 提高 了 分 类 效果 。 
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图 12. 21 Flevoland 影像 分 类 结果 图 
(a) PCA 分 类 结果 图 ; (b) SVM 分 类 结果 图 ;(c) Wishart 分 类 结果 图 ;(d) 深度 PCA 网 络 分 类 结果 图 


表 12.13 几 种 对 比方 法 对 1991 年 Flevoland 地 区 分 类 准确 度 对 比 




















方法 
PCA SVM Wishart Proposed 
seit po 
AA 0. 9359 0. 9577 0. 9045 0. 9981 
OA 0. 9018 0. 8728 0. 9464 0. 9864 


2) Germany 地 区 实验 设置 和 实验 结果 分 析 

对 于 ESAR 获取 的 Oberpfaffenhofen. Germany 地 区 四 视 的 全 极 化 数据 集 ,大 小 为 
1300X1200, 主 要 包括 了 三 类 : 城区 、 林 区 和 开发 区 域 影像 数据 ,每 类 选取 5000 个 训练 样本 ， 
图 12.22(d) 展 示 了 本 章 算 法 的 分 类 效果 图 ,图 12. 22(a) 为 利用 传统 的 主 成 分 分 析 PCA 和 
SVM 直接 进行 分 类 的 结果 ,图 12. 22(b) 是 直接 利用 SVM 进行 分 类 的 分 类 结果 ,图 12. 22(c) 
给 出 了 利用 Wishart 分 类 结果 图 , 表 12. 23 给 出 了 本 章 算 法 与 三 种 对 比 实验 方法 的 正确 率 
统计 。 从 图 12.2260 — F8 12. 22(c) 和 表 12. 14 中 可 以 看 出 . 相 比 其 他 几 种 对 比方 法 (SVM 、 
PCA 和 Wilshart 分 类 方法 ) ,本 节 算 法 识别 率 分 别 高 出 10. 68%、9. 98% 和 12. 36%。SVM 
和 PCA 方法 城区 部 分 杂 点 过 多 ,接近 一 半 错 分 为 了 林 区 ,本 节 算法 分 类 结果 图 无 论 是 从 视 





觉 效果 还 是 从 分 类 的 正确 率 统计 进行 分 析 , 两 者 均 兼 有 明显 的 优势 和 提高 。 
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图 12.22 Germany 影像 的 分 类 结果 对 比 图 
(a) 传统 的 RPCA 分 类 结果 图 ;(b) SVM 分 类 结果 图 ; (c) Wishart 分 类 结果 图 ; (d) 深度 RPCA 网 络 分 类 结果 图 


R12.14 几 种 对 比方 法 对 Germany 影像 分 类 精度 比较 





方法 
PCA SVM Wishart Proposed 
统计 量 
AA 0.5778 0. 4001 0. 6063 0. 8236 
OA 0. 6868 0. 6170 0. 6351 0. 8725 

















3) SF Bay 地 区 实验 设置 和 实验 结果 分 析 

极 化 SAR 影像 地 物 数据 为 2008 年 获取 的 大 小 约 1380 X 18000 的 旧金山 海湾 San 
Francisco 影像 ,训练 样本 每 类 选取 3000 个 , 共 5 类 ,图 12. 23 给 出 了 利用 本 节 算 法 的 分 类 
效果 图 ,图 12. 23(c) 给 出 了 利用 传统 PCA 直接 进行 分 类 的 结果 ,图 12. 23(d) 是 直接 利用 
SVM 进行 分 类 的 分 类 结果 ,图 12. 23(c) 给 出 了 利用 Wishart 分 类 的 结果 图 , 表 12. 15 为 本 
节 算 法 与 其 他 三 种 对 比 实验 方法 的 正确 率 统计 。 从 图 12. 23(a) 一 图 12. 23(c) 和 表 12. 15 
中 可 以 看 出 ,传统 PCA 对 于 低 密度 城区 和 高 密度 城区 的 错 分 、 误 分 很 明显 ,利用 Wishart 分 
类 方法 对 高 密度 城区 和 开发 区 很 不 理想 ,整体 分 类 情况 较 差 ,.SVM 整体 情形 相对 较 好 。 相 
比 上 述 三 种 对 比方 法 ,本 节 算 法 通过 深度 PCA 网 络 的 构建 ,可 以 有 效 地 学 习 此 影像 的 特征 ， 
分 类 的 正确 率 也 有 了 更 明显 的 提高 。 
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图 12.23 算法 12.1 和 三 种 对 比方 法 对 旧金山 地 区 的 分 类 结果 对 比 图 
(a) 传统 的 RPCA 分 类 结果 图 ; (b) SVM 分 类 结果 图 ;(c) Wishart 分 类 结果 图 ; (d) 深度 RPCA 网 络 分 类 结果 图 


512.15. 几 种 对 比方 法 对 旧金山 海湾 影像 分 类 精度 比较 


























统计 量 方法 PCA SVM Wishart Proposed 
AA 0. 7485 0. 8844 0. 8817 0. 8944 
OA 0. 7809 0. 8610 0. 8011 0. 8959 
12.4 基于 第 二 代 深 度 神 经 网 络 的 PoISAR 影像 地 物 分 类 
12.4.1 基于 深度 复 卷 积 网 络 的 PolSAR 影像 地 物 分 类 
1. 模型 介绍 


极 化 SAR( 多 极 化 SAR、 全 极 化 SAR) 是 一 种 多 通道 相干 微波 成 像 系 统 , 是 单 极 化 





SAR 的 扩 


展 系统 。 它 通过 矢量 测量 方法 来 获取 地 物 目标 信息 。 


众所周知 ,电磁 波 是 一 种 矢 
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E, A WE ELT MRE. 
我 们 获取 的 极 化 SAR 数据 多 为 基于 测量 数据 的 极 化 相干 矩阵 T。 传 统 的 特征 提取 方 
法 为 分 别 取 极 化 相干 矩阵 T 的 实 部 、 虚 部 ,以 及 对 和 矩阵 元 素 进行 取 模 操作 ,将 得 到 的 图 像 特 
征用 于 极 化 SAR 图 像 分 类 。 
a c—id h-tig 
< 十 id b EE rne ieri eti eti 
ce wy i 





T= 





(12. 43) 
这 种 特征 提取 方法 没有 考虑 到 极 化 SAR 图 像 的 相位 信息 ,因而 对 背景 复杂 的 极 化 
SAR 图 像 难 以 取得 较 高 的 分 类 精度 。 据 此 ,我 们 考虑 将 卷 积 神经 网 络 延 拓 至 复数 域 进行 运 
算 ,直接 处 理 复数 数据 ,充分 利用 极 化 SAR 数据 的 方向 信息 ,增强 模型 的 泛 化 能 力 。 卷 积 神 
经 网 络 中 的 核心 模块 卷 积 流 ( 卷 积 、 池 化 , 非 线 性 ,批量 归 一 化 ) 运 算 规 则 改进 如 下 : 
CD 复数 域 卷 积 : 当 输 入 数据 为 复数 形式 , 即 xa je bE Cn ,那么 卷 积 核 最 简单 的 
Ji X w—u-cj* v€ C" MWA x 5 w 的 卷 积 为 
x*w-—(a*u—b* v)-j* (a* v -b*u) € Core (12.44) 
53 5 M ELE c=at+j e BE Cn, 
(2) 复数 域 非 线 性 : 假设 复数 域 卷 积 操作 完成 后 的 输出 为 二 x x w 十 c, 那 么 非 线 性 函 
数 p 与 之 前 实数 域 上 的 取 法 一 致 ,但 这 里 的 操作 需 分 为 实 部 与 虚 部 , 即 
eT) = p(ReCP)) 十 j。9(ImCGP)) € Corm (12.45) 
(3) 复数 域 池 化 : 假设 卷 积 非 线性 处 理 完 后 的 输出 为 9 = 二 q(T), 也 与 之 前 的 池 化 方式 
一 样 ,但 需 注意 的 仍 是 分 为 实 部 与 虚 部 操作 , 即 
P = Maxpooling(Re(Q ) ,7) +j * Maxpooling(Im(Q ).r) € C^ 757 
(12. 46) 
其 中 的 7 为 池 化 半径 。 
(4) 复数 域 批量 归 一 化 : 与 之 前 的 归 一 化 方式 一 样 ,对 已 进行 实 部 与 虚 部 归 一 化 , 记 为 
F = Normalization(Re(P)) +j * Normalization(Im(P)) (12. 47) 
(5) 复数 域 全 连接 层 : 得 到 复数 域 批量 化 处 理 的 特征 映射 FC CPSs s ,这 里 的 S 为 卷 
积 流 模块 个 数 ,T 为 特征 映射 图 个 数 。 将 下 向 量化 后 得 到 VectorCF) € CT ss ,并 将 其 
映射 至 F EC, 
当 我 们 将 卷 积 流 延 拓 至 复数 域 后 ,不 失 一 般 性 ,得 到 的 深层 “ 复 ” 特 征 映射 为 fs。 由 于 
类 标 不 存在 复数 形式 ,所 以 为 了 与 输出 类 标 对 应 ,那么 已 知 Fs 后 ,最 简单 的 方式 为 “ 复 ” 分 
类 器 的 设计 , 即 


EC geb Om) (12.48) 
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2. 实验 结果 与 分 析 


硬件 平台 为 : Intel(R) Xeon(R) CPU E5-2630,2. 40GHzX16 ,内 存 为 64GB。 
软件 平台 为 : MxNet。 
在 上 述 仿 真 条 件 下 进行 实验 , 即 分 别 从 PolSAR 数据 的 每 个 类 别 中 随机 选取 200 个 有 
标记 的 像素 点 作为 训练 样本 ,其 余 有 标记 的 像素 点 作为 测试 样本 ,得 到 如 图 12. 24 所 示 的 分 


类 结果 。 


从 图 12. 24 中 可 以 看 出 : 分 类 结果 的 边缘 





图 12. 24 基于 深度 复 卷 积 网 络 的 分 类 结果 图 





深度 复 卷 积 网 络 适用 于 处 理 PolSAR 图 像 分 类 问题 。 
深度 复 卷 积 网 络 与 深度 卷 积 神经 网 络 在 测试 数据 集 上 的 各 类 分 类 精度 对 比如 表 12. 16 


Ko 待 分 类 的 PoISAR 图 像 选 用 NASA/JPL 实验 室 AIRSAR 系统 的 工 波段 荷兰 
Flevoland 地 区 的 全 极 化 数据 ,图 像 大 小 为 750X1024,15 类 地 物 。 


青 晰 且 区 域 一 致 性 较 好 ,表明 所 提出 的 



































所 示 。 
表 12.16 各 类 分 类 精度 对 比 
类 Fil 卷 积 神经 网 络 深度 复 卷 积 网 络 
Stembeans 97.74% 99.75% 
Rapeseed 91.49% 92.11% 
Bare soil 100% 100% 
Potatoes 97.23% 99.12% 
Wheat 92. 3696 98.61% 
Wheat 2 100% 100% 
Peas 99. 25% 99.37% 
Wheat 3 99.75% 100% 
Lucerne 99.50% 100% 
Barley 99.75% 99.50% 

















gs 基于 深度 神经 网 络 的 SAR/PolSAR 影 像 地 物 分 类 人 站 
275 




















续 表 
类 Gil 卷 积 神经 网 络 深度 复 卷 积 网 络 
Grasses 98. 86% 99.75% 
Beet 98.61% 98.74% 
Buildings 97.98% 98.61% 
Water 100% 100% 
Forest 99.62% 99.62% 











由 表 12. 16 可 看 出 ,深度 复 卷 积 网 络 较 之 卷 积 神经 网 络 在 大 部 分 地 物 上 都 有 优势 。 且 
在 Stembeans、Potatoes、Lucerne、Grasses、Buildings 等 类 别 上 分 类 精度 提升 较 大 。 

再 依次 减少 训练 样本 ,从 每 类 中 选取 100 个 .50 个 有 标记 的 像素 点 作为 训练 样本 ,将 深 
度 复 卷 积 网 络 与 卷 积 神经 网 络 的 测试 数据 集 分 类 精度 进行 对 比 ,结果 如 表 12.17 所 示 。 


表 12.17 不 同 数目 训练 样本 下 ,测试 数据 集 分 类 精度 对 比 











每 类 训练 样本 数目 训练 样本 所 占 比 例 卷 积 神经 网 络 深度 复 卷 积 网 络 
200 1.8% 99. 00% 99.41% 
100 0.9% 97.60% 97.94% 
50 0.5% 95. 33% 96.37% 











从 表 12.17 可 见 , 训 练 样本 占 样 本 总 数 的 1.8%、0.9%、0.5% 时 ,深度 复 卷 积 网 络 的 测 
试 数据 集 分 类 精度 均 明显 高 于 卷 积 神经 网 络 。 在 训练 样本 数目 较 少 的 情况 下 ,优势 明显 。 

综 上 ,通过 将 卷 积 神经 网 络 延 拓 至 复数 域 进行 运算 ,有 效 提 高 了 图 像 特 征 的 表达 能 力 
PolSAR 图 像 的 分 类 精度 得 到 显著 提升 。 


12.4.2 基于 生成 式 对 抗 网 的 PolSAR 影像 地 物 分 类 
1. 模型 介绍 


深度 卷 积 生成 式 对 抗 网 (Deep Convolution GAN, 原文 缩写 为 DCGAN, 现 缩写 为 
DAN-Convolutional) 是 2015 年 Radford A 等 在 Computer Science 上 发 表 的 论文 Unsupervised 
representation learning with deep convolutional generative adversarial networks 中 提出 的 ,在 
TensorFlow 平台 上 有 相关 实现 代码 。DAN 结合 有 监督 学 习 的 CNN 和 无 监督 学 习 的 
GAN ,能 够 进行 无 监督 表征 学 习 , 训 练 好 的 生成 器 和 判别 器 的 隐 含 层 都 可 以 对 图 像 进行 特 
征 表 示 , 重 用 其 训练 好 的 生成 模型 和 判别 模型 ,能够 应 用 于 图 像 分 类 任务 。 

DAN 的 结构 是 在 原始 GAN 的 基础 上 ,将 生成 器 和 判别 器 的 隐 含 层 全 部 用 卷 积 层 实 
现 。 虽然 GAN 本 身 训练 不 需要 特定 的 启发 式 损失 函数 ,优化 过 程 是 一 个 “二 元 极 大 极 小 博 
弈 问题 ,但 是 GAN 本 身 训练 十 分 不 稳定 。 作 者 根据 自己 在 CNN 领域 的 工程 经 验 , 提 出 和 
评估 了 一 系列 约束 使 得 网 络 在 训练 中 稳定 。 

其 模型 的 方法 和 核心 主要 有 : 
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中 (1) 用 生成 器 的 带 步 长 卷 积 (Strided Convolutions) 替 换 所 有 池 化 层 ; 
(2) 用 判别 器 的 微 步 幅 卷 积 (Fractional Strided Convolutions) 蔡 换 所 有 池 化 层 ; 
(3) 在 生成 器 和 判别 器 上 都 使 用 批 标准 化 (Batchnorm) ,这 个 策略 能 有 效 地 解决 初始 化 
不 当 引 起 训练 崩溃 的 问题 ,但 如 果 将 批 标准 化 应 用 于 所 有 层 又 会 引起 模型 的 不 稳定 ,所 以 采 
取 的 措施 为 在 生成 器 的 输出 层 和 判别 器 的 输入 不 使 用 批 标准 化 ; 
(4) 删除 深度 网 络 中 的 全 连接 层 ,论文 中 提 到 ,原始 CNN 中 一 般 使 用 的 是 全 局 池 化 
(global pooling) ,这 样 虽然 可 以 增加 模型 的 稳定 性 ,但 是 网 络 的 收敛 速度 会 降低 ; 
(5) 生成 器 中 输出 层 用 Tanh 激活 函数 ,其 他 所 有 层 用 Relu 激活 函数 ; 
(6) 判别 器 中 所 有 层 的 激活 函数 都 用 LeakyRelu。 


具体 网 络 模型 如 图 12. 25 所 示 。 
LE 判别 器 的 隐 含 层 均 用 卷 积 层 实现 


-fs 
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生成 器 的 隐 含 层 均 用 反 卷 积 层 实现 














图 12.25 DAN 网 络 结构 


对 于 生成 器 ,输入 为 100 维 的 均匀 噪声 ,第 一 层 为 全 连接 层 ,将 100 维 的 向 量 投影 成 
4X4 大 小 的 feature map ,通道 数 为 512。 然 后 依次 用 四 层 步 长 为 5X5 的 带 步 长 卷 积 , 这 样 
使 得 每 次 卷 积 后 图 像 尺寸 加 倍 ,通道 数 减 半 。 最 后 转换 为 64X64 大 小 的 RGB 三 通道 图 片 ， 
这 些 图 片 就 是 生成 的 假 样本 。 

对 于 判别 器 ,输入 为 真实 的 样本 和 生成 器 生成 的 假 样本 35] Jg 642€ 64 大 小 的 RGB 三 通 
道 图 片 。 判 别 器 与 生成 器 的 各 层 的 图 像 尺 寸 和 通道 数 保持 一 致 。 判 别 器 的 前 四 层 依 次 图 像 
RRE ,通道 数 加 倍 ,生成 高 级 特征 表示 。 最 后 一 层 为 一 个 logistics 回归 二 分 类 器 ,输出 
为 一 个 标量 , 即 对 样本 真实 性 的 评分 ,表示 是 否 为 真实 样本 。 

训练 中 超 参 数 设 置 如 下 : 采用 mini-batch 进行 训练 ,训练 的 batchsize 为 64; 以 往 的 
GAN 都 采用 momentum 优化 器 加 速 训练 ,DAN 采用 adam 优化 器 进行 学 习 训练 , 且 学 习 率 
为 0.0002; 所 有 的 参数 初始 化 都 是 从 正 态 分 布 得 到 的 , 正 态 分 布设 置 的 参数 为 均值 为 0, 方 
229 0.02; 设置 LeakyReLU 的 斜率 为 0.2; 将 momentum 参数 beta 从 0. 9 降 为 0.5, 有 助 
于 训练 稳定 ,防止 震 功 。 

基于 DAN 的 半 监 督 极 化 SAR 图 像 分 类 。 我 们 为 充分 利用 DAN 网 络 具 有 的 无 监督 学 
习 表 征 的 特性 ,并 将 其 引用 到 极 化 SAR 图 像 分 类 领域 ,提出 一 种 自动 进行 特征 学 习 而 后 对 
Bett SAR 图 像 分 类 的 方法 。 这 里 给 出 基于 DAN 的 半 监 督 极 化 SAR 图 像 分 类 流程 图 ,如 
图 12. 26 所 示 。 
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图 12.26 基于 DAN 的 半 监 督 极 化 SAR 图 像 分 类 流程 图 


具体 分 类 算法 步骤 为 : 

(1) 首先 对 极 化 SAR 图 像 采用 Pauli 分 解 ,分 解 为 几 个 极 化 特征 并 形成 伪 彩 图 代表 原 
极 化 SAR 数据 。 将 pauli 分 解 后 的 数据 切 成 64 X 64X3 的 块 ,用 这 个 块 代表 第 (32,32) 像 

(2) 然后 用 极 化 SAR 图 像 中 无 标签 样本 对 训练 网 络 , 即 DAN 进行 训练 。 训 练 网 络 模 
型 如 图 12. 27 中 所 示 ,分 为 生成 网 络 G 和 判别 网 络 D。 生 成 器 G 的 输入 为 服从 均匀 分 布 的 
噪声 矢量 ,这 是 传统 GAN 的 生成 器 唯一 输入 。 生 成 器 G 的 输出 为 极 化 SAR 数据 ,与 判别 
器 D 的 输入 形式 相同 。 极 化 SAR 图 像 无 标签 样本 的 极 化 特征 作为 判别 器 D 的 输入 ,而 判 
别 器 的 输出 为 一 个 标量 , 即 一 个 二 分 类 器 ,输出 是 否 为 真实 的 训练 样本 。 











图 12.27 训练 网 络 模型 


(3) 利用 训练 好 的 DAN 中 的 判别 器 D, 将 二 分 类 器 更 换 为 softmax 分 类 器 ,构造 分 类 
网 络 模型 ,如 图 12. 28 所 示 。 然 后 用 少量 有 标记 样本 训练 分 类 器 。 训 练 好 分 类 器 以 后 ,再 接 
着 用 有 标签 样本 对 整个 分 类 网 络 进行 精 调 。 最 后 ,可 以 输入 测试 集 用 分 类 网 络 对 其 进行 


分 类 。 
[NE 


图 12. 28 分 类 网 络 模型 
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2. 实验 结果 与 分 析 


1) 仿真 条 件 

硬件 平台 : HP Z840 

深度 学 习 平台 : TensorFlow 

2) 仿真 内 容 

实验 选取 旧金山 海湾 影像 ,总 像素 点 个 数 为 1800 X1380。 首 先 在 所 有 像素 点 中 选取 
86 940 个 ( 占 总 像素 点 的 3.5%) 无 标签 像素 点 ,记录 这 些 点 的 位 置 。 然 后 在 这 些 点 周围 取 
64 64 的 块 组 成 无 标签 训练 样本 ,将 无 标签 样本 输入 训练 网 络 模型 进行 无 监督 训练 。 然 后 
在 标记 过 的 像素 点 (有 标签 像素 点 共 1 804 087 个 ) 中 每 个 类 别 里 选择 0.5% 的 有 标签 像素 
点 ,记录 这 些 点 的 位 置 , 其 余 的 有 标记 像素 点 取 块 作为 测试 集 。 然 后 在 这 些 点 周围 取 64 X 
64 的 块 组 成 有 标签 训练 样本 集 , 将 有 标签 样本 集 输入 分 类 网 络 模型 训练 。 最 后 ,将 测试 集 
输入 分 类 网 络 模型 进行 分 类 ,再 计算 分 类 准确 率 。 分 类 结果 如 图 12. 29 所 示 ,其 分 类 精度 达 
99. 4346% 。 将 本 方法 与 传统 卷 积 神经 网 络 CNN 的 测试 分 类 精度 进行 比较 ,结果 如 表 12. 18 
所 示 , 用 CNN 分 类 结果 为 图 12. 30。 


表 12.18 本 节 方 法 与 卷 积 神 经 网 络 方法 实验 结果 对 比 


























分 类 方法 卷 积 神经 网 络 本 方法 
类 别 1(%) 99. 9832 99. 9913 
KH 20%) 97.1476 98. 5980 
类 别 30%) 91. 1120 98. 5554 
3650 4C) 91. 2401 99. 6494 
类 别 50%) 95. 0531 99. 0883 
总 准确 率 97. 4149 99. 4346 








图 12. 29 本 方法 分 类 结果 图 图 12.30 CNN 分 类 结果 图 
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由 表 12. 18 的 对 比 实验 结果 可 以 看 出 ,本 方法 的 每 一 类 别 的 分 类 精度 均 比 传统 CNN 
分 类 效果 好 ,提高 了 分 类 精度 。 而 且 由 分 类 结果 图 可 以 看 出 ,两 种 方法 对 水 域 的 分 类 准确 率 
都 很 高 ,分 别 为 99. 9913% 和 99. 9832% 。 而 在 对 农田 高 密度 城区 和 开发 区 的 分 类 时 ,用 
CNN 进行 分 类 略 逊 于 本 方法 。 在 对 低 密度 城区 分 类 时 ,CNN 的 错 分 和 误 分 情况 比较 严重 ， 
CNN 分 类 结果 图 中 低 密度 城区 部 分 的 噪声 杂 点 也 比较 多 ,分 类 精度 方面 比 本 方法 的 精度 低 
了 7.4434%。 而 本 方法 的 结果 图 中 分 类 结果 的 区 域 一 致 性 较 好 ,不 同 区 域 划 分 后 的 边缘 清 
晰 可 辨 , 且 保 持 了 细节 信息 ,分 类 结果 图 中 噪声 也 比较 少 。 不 管 从 分 类 精度 还 是 视觉 效果 ， 
本 方法 都 具有 明显 的 优势 。 

这 证 明了 本 方法 使 用 DAN 进行 特征 提取 ,能 够 从 大 量 无 标记 数据 中 学 习 数 据 分 布 特 
性 ,具有 很 好 的 特征 表示 能 力 。 而 且 本 方法 相 比 其 他 极 化 SAR 分 类 方法 ,不 需要 添加 滤波 
过 程 ,因为 DAN 模型 本 身 具 有 降 品 功能 , 它 能 自动 滤 除 极 化 SAR 数据 中 相干 斑 噪 声 , 然 后 
学 习 数 据 特 征 。 同 时 ,本 方法 通过 重用 DAN 的 判别 器 模型 对 极 化 SAR 能 生成 图 像 表 征 ， 
相 比 其 他 深度 学 习 特 征 提 取 的 方法 ,无须 启 发 式 损失 函数 ,也 能 很 好 地 表征 图 像 , 即 使 用 少 
量 的 有 标记 样本 对 极 化 SAR 数据 分 类 仍 可 以 达到 很 高 的 分 类 精度 。 


12.4.3 基于 深度 残 差 网 络 的 PolSAR 影像 地 物 分 类 
1. 模型 介绍 


深度 卷 积 神经 网 络 在 图 像 分 类 方面 引发 了 一 系列 突破 。 通 过 改变 琶 层 的 数量 (深度 )， 
深度 网 络 自 然 整 合 低 /中 /高 水 平 的 功能 , 端 到 端 多 层 方式 的 分 层 器 ,和 特征 的 “水 平 " 都 变 得 
更 加 丰富 。 

1) 残 差 学 习 

将 五 (z) 假 设 为 由 几 个 堆 释 层 匹配 的 (不 一 定 是 整个 网 ) 基 础 映射 ,用 xz 表示 这 些 第 一 
层 的 输入 。 假 设 多 元 非 线 性 层 能 双 近 复杂 的 函数 ,也 就 相当 于 假设 它们 可 以 允 近 残 差 函 数 ， 
例如 瑟 (z) 一 x( 假 设 输入 和 输出 在 同一 规模 )。 因 此 我 们 非常 明确 地 让 这 些 层 近似 于 残 差 
函数 ,而 并 非 期 待 堆 释 层 近 似 于 及 (z)。 所 以 原 函 数 变 成 了 : F(x) 十 x。 尽管 两 种 形式 都 能 
通 近 期 望 函 数 , 但 学 习 难 易 度 可 能 不 同 。 新 的 构思 源 于 反常 的 精准 度 下 降 问 题 。 如 果 添 加 
的 层 可 以 被 构造 为 恒 等 映 射 ,那么 一 个 更 深度 模型 的 训练 误差 ,不 应 大 于 与 其 相应 的 更 浅 的 
模型 训练 误差 。 精 准 度 下 降 问 题 表 明 ,求解 器 在 通过 多 个 非 线 性 层 近似 于 恒 等 映 射 方 面 有 
困难 。 随 着 残 差 学 习 重 构 ,如 果 恒 等 映射 是 最 佳 的 方法 ,那么 求解 器 可 以 简单 地 驱动 多 个 非 
线性 层 的 权重 趋向 于 零 ,以 便 逼 近 恒 等 映射 。 在 现实 情况 中 , 恒 等 映 射 不 可 能 是 最 优 的 ,但 
我 们 的 方法 可 能 有 助 于 事先 处 理 该 问题 。 如 果 最 优 函 数 与 趋 近 于 零 映射 相 比 更 趋 近 于 身份 
函数 ,那么 与 学 习 一 个 新 函数 相 比 ,求解 器 更 容易 找到 关于 恒 等 映射 的 干扰 。 我 们 通过 实验 
展示 所 学 到 的 剩余 函数 一 般 有 小 的 响应 ,这 表明 恒 等 映射 提供 了 合理 的 预 处 理 。 

2) 快捷 方式 的 恒 等 映 射 

我 们 对 每 一 个 堆 琶 层 都 采用 残 差 学 习 ,一 个 构建 模块 如 图 12. 31 所 示 。 正 式 地 说 ,本 文 
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构建 模块 定义 为 : 
y = Fix, {W;:}} +x (12. 49) 
其 中 x 和 y 是 考虑 到 的 层 的 输入 和 输出 向 量 。 函 数 代 表 学 习 的 残 差 函 数 。 如 图 12. 31 所 示 
有 两 个 层 , 而 且 消除 了 简化 符号 的 偏见 . 下 十 x 的 操作 是 由 快捷 连接 和 增加 的 元 素 智能 进行 
的 。 在 增加 之 后 我 们 采用 了 第 二 非 线 性 特性 。 
式 (12.49) 中 介绍 的 快捷 连接 ,没有 额外 的 参数 和 复杂 的 计算 。 这 不 仅 在 实践 中 有 吸引 
力 , 它 在 对 比 平原 和 残 差 网 络 方面 也 同样 重要 。 有 着 相同 数量 的 参数 、 深 度 .宽度 和 计算 成 
本 时 (除了 可 以 忽略 不 计 的 元 素 智能 的 添加 ) ,可 以 对 平原 和 残 差 网 络 进行 简单 的 对 比 。 
式 (12.49) 中 x 和 下 的 大 小 必须 相同 。 如 果 不 同 (例如 改变 输入 和 输出 渠道 ) 我 们 可 以 通过 
快捷 连接 线性 投影 W, 来 匹配 维度 : 
y = Fix, (Wi) +W, * x (12. 50) 
可 以 使 用 一 个 正方 形 和 矩阵 W, 。 但 我 们 会 通过 实验 表明 ,人 恒 等 映 射 足以 用 于 解决 精准 度 下 
降 问 题 并 且 是 非常 合算 的 ,因此 只 有 在 匹配 维度 时 , 才 使 用 W.. PRE PRÉC 下 的 形式 是 灵活 的 ， 
本 文 的 实验 涉及 一 个 有 两 层 或 三 层 或 者 更 多 层 的 函数 下 。 但 如 果 下 仅仅 只 有 单 层 , 式 (12. 50) 
就 类 似 于 线性 层 。 我 们 还 注意 到 ,虽然 上 面 的 符号 为 了 简单 起 见 是 关于 完全 连接 的 层 ,但 它们 
适用 于 卷 积 层 。 函 数 可 以 代表 多 个 卷 积 层 。 增 加 的 元 素 智 能 在 两 个 特征 映射 上 通过 通道 对 通 
道 的 方式 进行 。 本 实验 的 模型 如 图 12. 32 所 示 ,本 实验 一 共有 5 个 残 差 块 ,共计 32 层 。 
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2. 实验 


实验 结果 如 表 12. 19 所 示 。 
表 12.19 实验 结果 




















x 验 训练 集 / 测 试 集 训练 集 准确 率 测试 集 准确 率 
实验 一 496/9696 97. 6826 96. 806% 
实验 二 396/9796 98.71% 95. 737% 





实验 结果 如 图 12. 33 和 图 12. 34 所 示 。 
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图 12.33 实验 一 结果 图 图 12.34 实验 二 结果 图 


3. 实验 总 结 


本 节 采 用 1800X1380 的 旧金山 海湾 极 化 SAR 影像 地 物 数 据 , 图 12. 33 给 出 了 训练 数 
据 取 4% 时 的 结果 ,图 12. 34 给 出 的 则 是 训练 数据 取 3% 时 的 分 类 结果 。 通 过 深度 残 差 网 的 
构建 ,较为 准确 有 效 地 表示 出 极 化 SAR 旧金山 海湾 的 地 物 特性 和 极 化 机 理 特征 等 ,无 论 是 
从 视觉 效果 还 是 从 分 类 的 正确 率 统计 方面 进行 分 析 , 两 者 均 有 良好 的 结果 。 由 于 极 化 SAR 
数据 特有 的 极 化 特性 、 散 射 特性 和 领域 信息 等 ,成 为 数据 训练 学 习 的 关键 目的 所 在 ,深度 残 
差 网 在 基于 数据 的 极 化 特性 和 散射 特性 的 基础 上 ,学 习 了 极 化 SAR 数据 的 高 阶 特征 和 低 阶 
特征 ,提高 了 分 类 精度 。 
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13.1 数据 集 特 点 及 研究 目的 


合成 孔径 雷达 (SAR) 影 像 变化 检测 是 指 通过 对 不 同时 期 同一 区 域 的 SAR 影像 进行 比 
较 分 析 ,根据 影像 之 间 的 差异 得 到 我 们 所 需要 的 地 物 或 目标 的 变化 信息 。 现 代 迁 感 技术 的 
飞速 发 展 为 变化 检测 提供 了 一 种 便捷 的 途径 ,遥感 数据 成 为 变化 检测 的 主要 数据 源 。 与 可 
见 光 和 红外 遥感 相 比 ,微波 遥感 具有 无 可 比拟 的 优点 : 微波 能 穿 透 云雾 、 雨 雪 , 具 有 全 天 候 、 
全 天 时 的 工作 能 力 ; 微波 对 地 物 有 一 定 穿 透 能 力 ; 采用 侧 视 方式 成 像 ,覆盖 面积 大 。 正 是 
这 些 优点 ,使 得 SAR 图 像 日 益 成 为 变化 检测 的 重要 数据 源 。 

SAR 变化 检测 技术 的 需求 日 益 广泛 。 目 前 ,全 球 环境 变化 加 剧 ,城市 急速 发 展 ,洪水 、 
地 震 等 自然 灾害 时 有 发 生 , 这 些 都 需要 及 时 掌握 相关 动态 信息 ,为 相关 决策 部 门 提供 支持 ， 
而 SAR 的 种 种 优点 为 快速 响应 提供 了 技术 支持 和 应 急 保障 。 


13.1.1 研究 日 的 


如 图 13. 1 为 SAR 影像 变化 检测 的 一 般 流 程 图 。 主 要 分 为 SAR 数据 源 获取 、 影 像 预 处 
理 , 变 化 检测 ,精度 估计 四 个 步骤 ,下 面 简 要 介绍 一 下 各 步骤 。 
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SAR 数据 源 获 取 : 对 数据 进行 初步 分 析 , 获 取 图 像 的 相关 信息 : SAR 系统 参数 (分 辨 
力 波 段 波长. 极 化 方式 、 像 素 间距 ); 数据 场景 的 位 置 和 方向 ; 数据 类 型 是 原始 数据 还 是 
图 像 数 据 , 如 果 数 据 类 型 是 原始 数据 , 则 需 进 行 成 像 处 理 ; 数据 的 量化 方式 和 精度 ; 数据 存 
储 格式 ; 数据 获取 的 时 间 ,然后 从 存储 介质 中 获取 数据 。 

影像 预 处 理 : 由 于 传感器 差异 和 其 他 干扰 的 影响 ,在 对 SAR 影响 进行 数据 分 析 之 前 ， 
通常 需要 进行 一 定 的 预 处 理 修 正 , 典 型 的 预 处 理 修 正 包括 降 品 、 辆 射 校正 ,传感器 校准 地形 
校正 .几何 校正 和 图 像 配 准 等 。 

几何 校正 : 由 于 SAR 图 像 在 获取 过 程 中 会 受到 传感器 位 置 和 运动 状态 变化 .地 形 起 
伏 、 地 球 表面 曲率 .大 气 折射 和 地 球 自转 等 因素 的 影响 ,产生 几何 形变 ,因此 需要 对 图 像 进行 
几何 校正 。 几 何 校正 的 大 致 过 程 为 : 

(1) 由 图 像 中 所 含 的 几何 畸变 性 质 及 用 于 校正 的 数据 来 确定 校正 的 方法 ; 

(2) 确定 校正 公式 和 结构 ,例如 图 像 坐标 和 地 图 坐标 的 变化 式 等 ,根据 控制 点 数据 求 出 
校正 的 参数 ; 

(3) 验证 校正 方法 校正 的 有 效 性 ; 

(4) ERE AH. 

辐射 校正 : 在 信号 获取 过 程 中 ,不 同 的 传感器 以 及 不 同 的 地 物 特征 等 情况 会 对 辐射 值 
造成 影响 ,为 了 客观 评价 地 表 的 发 射 特征 及 辐射 特征 ,必须 对 SAR 图 像 进行 辆 射 标准 化 ,以 
使 得 两 图 未 变化 部 分 的 灰 度 值 大 致 相同 。 完 整 的 辐射 校正 包括 传感器 校正 、 大 气 校正 和 地 
形 校 正 等 。 辐 射 校正 分 为 绝对 辐射 定 标 和 相对 辐射 定 标 。 绝 对 辐射 定 标 就 是 使 用 卫星 星 历 
数据 , 反 演 内 插 SAR 图 像 地 物 雷达 后 向 散射 截面 值 ; 而 相对 辐射 定 标 ,就 是 以 一 幅 图 像 为 
基准 ,把 其 他 数据 序列 集 图 像 映射 投影 变换 到 基准 亮度 空间 。 一 般 的 SAR 数据 文件 中 ,都 
会 给 出 校正 参数 值 。 

图 像 配 准 : 根据 主 图 像 的 几何 特性 ,对 两 幅 图 像 进行 图 像 配 准 , 使 得 主 图 像 和 辅 图 像 的 
空间 位 置 对 应 。 

图 像 增强 : 对 SAR 图 像 进行 增强 处 理 可 以 突出 有 用 信息 ,对 相干 斑 噪声 进行 抑制 以 改 
善 图 像 质量 。 图 像 增 强 的 方法 主要 有 对 比 度 扩展 .空间 滤 波 .图 像 运 算 。 其 中 空间 滤波 以 重 
点 突出 图 像 上 的 某 些 特征 为 目的 ,如 突出 边缘 或 纹理 等 ,主要 包括 平滑 和 锐 化 。 常 用 的 平滑 
运算 包括 均值 平滑 和 中 值 平 滑 。 锐 化 方法 常用 的 有 Roberts 梯度 、Sobel 梯度 、 拉 普 拉 斯 算 
法 和 定向 检测 。 锐 化 可 以 对 图 像 进行 边缘 增强 和 边缘 提取 。 对 SAR 图 像 而 言 ,主要 是 进行 
相干 班 噪声 抑制 。 

最 后 ,在 校正 的 基础 上 ,还 需要 通过 对 图 像 内 容 、 特 征 、 结 构 、 关 系 、 纹 理 及 灰 度 等 的 对 应 
关系 .相似 性 和 一 致 性 进行 分 析 ,最 终 得 到 精确 配 准 的 SAR 图 像 。 

变化 检测 : 变化 检测 是 一 个 确定 和 评价 各 种 地 表现 象 随时 间 发 生变 化 的 过 程 。 检 测 出 
两 幅 SAR 图 之 间 发 生变 化 的 区 域 。 根 据 具 体 的 应 用 ,对 检测 结果 进行 分 析 。 

精度 估计 : 在 SAR 图 像 变化 检测 中 ,为 了 评估 得 到 的 变化 检测 图 像 的 质量 记忆 算法 的 
好 坏 ,一 般 用 检测 精确 率 、 虚 警 率 、Kappa 系数 等 指标 进行 评价 。 检 测 准确 率 是 指 把 检测 出 
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来 的 变化 信息 与 地 面 真 实 变化 进行 比较 ,检测 结果 正确 的 百分比 。 虚 警 率 是 指 实际 未 发 生 
变化 , 却 被 检测 为 变化 的 像素 个 数 所 占 的 百分比 。Kappa 系数 用 来 估计 变化 检测 得 到 的 
结果 与 地 面 真实 变化 二 者 之 间 的 相似 性 程度 ,对 于 地 面 的 变化 情况 ,Kappa 系数 比 其 他 评 
价 标准 更 敏感 ,更 能 反映 检测 性 能 的 差异 。Kappa 系数 越 大 , 则 表明 两 幅 图 像 的 相似 程度 
就 越 高 , 即 变化 检测 得 到 的 结果 与 地 面 真实 变化 越 接近 。Kappa 系数 为 1, 则 说 明 完 全 
—5t. 

变化 信息 的 获取 是 变化 检测 过 程 中 的 核心 和 关键 ,目前 所 出 现 的 各 种 变化 检测 方法 也 
都 是 为 了 解决 如 何 有 效 地 从 多 时 相 图 像 中 提取 出 地 物 的 变化 信息 。 虽 然 已 经 出 现 了 各 种 各 
样 的 变化 检测 方法 ,但 是 它们 基本 上 都 是 为 了 解决 某 个 或 某 类 问题 而 提出 的 ,因此 缺乏 统一 
的 描述 。 从 不 同 的 角度 出 发 ,可 以 进行 不 同 的 分 类 。 如 果 从 检测 层次 的 角度 出 发 ,可 以 分 为 
像素 级 变化 检测 ,特征 级 变化 检测 和 目标 级 变化 检测 ; 如 果 从 应 用 的 角度 出 发 ,可 以 分 为 基 
于 土地 覆盖 的 变化 检测 、 基 于 人 工地 物 的 变化 检测 、 基 于 土壤 植被 索引 的 变化 检测 等 ， 如果 
从 算法 的 角度 出 发 , 则 可 以 分 为 基于 图 像 代数 运算 、 基 于 图 像 变 换 、 基 于 图 像 分 类 以 及 基于 
图 像 结构 特征 分 析 的 变化 检测 等 。 

在 过 去 的 几 十 年 里 ,人 们 提出 了 很 多 SAR 图 像 的 变化 检测 方法 。 其 中 大 部 分 是 基于 差 
蜡 图 的 分 析 方 法 。 这 类 方法 通常 包括 三 个 主要 步骤 : 图 像 的 预 处 理 ,差异 图 的 生成 和 分 析 。 
差异 图 分 析 是 非常 关键 的 步骤 , 它 可 以 被 看 作 是 一 个 自动 的 分 割 过 程 一 一 将 差异 图 分 成 变 
化 类 和 非 变化 类 。 最 经 典 的 分 析 差 异 图 的 方法 包括 : 阔 值 法 、 聚 类 法 等 。 阔 值 法 通常 自动 
地 寻找 一 个 固定 常数 ,通常 将 差异 图 中 的 像素 灰 度 值 与 该 常数 比较 决定 其 变化 类 别 。 这 种 
方法 的 主要 缺点 是 其 检测 的 正确 性 依赖 于 统计 模型 与 实际 数据 分 布 的 拟 合 度 ,并且 很 少 考 
虑 像素 的 邻 域 信息 。 而 聚 类 法 将 差异 图 中 的 像素 进行 自动 分 组 ,使 得 同一 类 别 像素 之 间 的 
距离 最 近 ,而 不 同类 别 像素 之 间 的 距离 最 远 。 实 现 该 过 程 需要 建立 目标 方程 ,对 聚 类 中 心 和 
隶属 度 进行 迭代 。 而 如 何 建立 无 偏 祖 的 目标 方程 是 这 类 方程 所 面临 的 瓶颈 问题 。 

随 着 数据 收购 渠道 和 应 用 范围 的 不 断 增加 ,传统 的 方法 不 能 满足 更 高 的 精度 和 更 灵活 
的 应 用 。SAR 图 像 中 斑点 乘 性 噪声 的 存在 使 得 SAR 图 像 很 难 被 解 译 ,这 将 干扰 区 域 本 身 
的 变化 情况 ,从 而 影响 变化 预测 的 判断 。 

深度 学 习 被 看 作 是 神经 网 络 的 复兴 ,在 近 些 年 引起 了 人 们 的 广泛 关注 。 随 着 近年 来 深 
度 学 习 的 火热 ,深度 学 习 成 为 一 个 新 的 机 器 学 习 方 法 并 逐渐 应 用 于 视觉 的 各 个 领域 。 无 论 
在 语音 识别 .目标 识别 、 多 任务 ,还 是 在 迁移 学 习 等 领域 都 取得 了 突破 性 进展 。 深 度 学 习 从 
数据 出 发 ,试图 利用 未 知 结构 去 发 现 良好 的 且 具 有 较 高 层次 的 学 习 特 征用 以 定义 和 表示 较 
底层 的 特征 。 它 包括 一 连 串 的 处 理 单元 ,其 目的 是 对 未 加 工 的 输入 信号 进行 不 同形 式 的 表 
示 。 深 层 网 络 可 以 通过 不 断 地 学 习 , 在 网 络 的 输出 层 获 得 抽象 且 不 变 的 特征 ,发 现 非 局 部 结 
构 , 最 终 使 得 输出 表示 更 加 简化 和 和 鲁 棒 。 

本 章 试 着 从 深度 学 习 的 模型 出 发 ,为 解决 SAR 图 像 的 变化 检测 的 相关 问题 提供 一 些 
思路 。 
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13.1.2 数据 基本 特性 


SAR 图 像 是 利用 微波 各 感 技术 得 到 的 ,与 光学 手段 得 到 的 图 像 不 同 , 它 反映 的 是 目标 
的 无 线 电波 散射 特性 ,而 不 是 光学 特性 。 雷 达 图 像 依据 回 波 信号 的 强 弱 形成 , 强 弱 程 度 决定 
了 图 像 的 灰 度 。 某 地 区 的 回 波 信号 强 , 反 映 在 图 像 上 ,其 对 应 位 置 的 灰 度 就 高 ; 回 波 信号 
弱 , 灰 度 就 低 。SAR 图 像 与 光学 图 像 有 以 下 区 别 : 





微波 具有 穿 透 性 ,可 以 透 过 云层 .地 表 观 测 ,不 受 光 线 强 度 影响 的 特点 ,因此 成 像 雷 
达 具 有 全 天 候 、 全 天 时 的 工作 能 力 , 这 是 光学 成 像 不 具备 的 优点 。 而 且 成 像 雷 达 与 
光学 传感器 相 比 , 具 有 更 大 的 侦察 范围 ,可 以 发 现 不 容易 被 光学 传感器 发 现 的 目标 ， 
得 到 大 范围 高 分 辩 率 的 图 像 。 

由 于 成 像 雷达 的 回 波 信号 需要 进行 一 系列 的 复杂 处 理 , 因 此 与 光学 成 像 相 比 ,设备 
更 复杂 、 运 算 量 更 大 。 

成 像 雷 达 是 相干 处 理 系统 ,图 像 存 在 相干 斑 , 这 是 雷达 系统 固有 的 缺点 。 相 干 斑 导 
致 图 像 质量 下 降 , 因 此 成 像 处 理 后 ,往往 都 需要 进行 相干 斑 抑 制 。 光 学 成 像 由 于 原 
理 不 同 , 不 存在 这 个 问题 。 

雷达 成 像 就 是 从 回 波 信号 中 提取 目标 的 后 向 散射 系数 ,所 以 图 像 反 映 的 是 被 测 地 域 
的 电磁 特性 ,而 光学 成 像 依据 的 是 普通 的 反射 。 两 部 分 区 域 光 学 特性 不 同 , 但 后 向 
散射 系数 可 能 相同 ,因此 雷达 图 像 不 能 区 分 这 两 个 区 域 , 在 光学 图 像 上 区 别 却 很 
明显 。 

光学 图 像 通常 是 垂直 照射 地 面 所 得 ,成像 雷 达 一 般 则 是 侧 视 成 像 。 雷 达 波 束 以 一 定 
的 俯 角 照射 被 测绘 的 地 域 ,使 得 雷达 图 像 具 有 阴影 、. 迎 坡 缩短 等 固有 特征 。 与 光学 
图 像 相 比 ,雷达 图 像 的 轮廓 比较 清楚 .有 较 好 的 对 比 度 。 

在 知道 雷达 的 各 种 参数 (如 高 度 、 入 射 角 ) 后 ,对 雷达 图 像 进 行 插值 等 处 理 可 以 得 到 
相同 的 比例 尺 表示 ,图像 不 会 发 生 畸 变 。 光 学 图 像 由 于 光 在 成 像 透 镜 的 光 轴 周围 的 
折射 率 不 同 ,使 得 图 像 出 现 畸 变 , 如 远离 轨迹 处 的 图 像 被 压缩 。 





SAR 是 一 种 主动 式微 波 成 像 传感器 ,SAR 主要 利用 脉冲 压缩 技术 和 合成 孔径 原理 ,使 
得 距离 分 辨 率 和 方位 分 辩 率 分 别 加 以 提高 ,进而 获取 大 面积 的 高 分 辨 率 的 遥感 影像 。SAR 
图 像 由 于 其 全 天 时 、 全 天 候 和 一 定 穿 透 性 的 特殊 成 像 特 性 ,为 地 球 空间 信息 的 获取 提供 了 一 
个 有 效 途 径 ,其 在 目标 跟踪 自然 灾害 检测 以 及 农作物 生长 监测 等 众多 应 用 中 都 发 挥 了 重要 
作用 。 近 年 来 SAR 系统 的 飞速 发 展 ,使 得 SAR 数据 的 获取 更 为 便捷 。 特 殊 的 成 像 特性 使 
得 其 相对 于 光学 图 像 可 以 在 极端 天 气 情况 下 发 挥 重 要 作用 。 随 着 获取 时 间 的 缩短 ,同一 地 
区 不 同时 相 SAR 数据 为 变化 检测 技术 的 开展 提供 了 数据 支持 ,SAR 变化 检测 技术 逐渐 成 
为 遥感 应 用 研究 的 热点 。 然 而 SAR 成 像 系统 基本 分 辩 单 元 内 地 物 的 随机 后 向 散射 ,使 得 相 
位 角 失去 了 连续 性 ,在 影像 上 表现 为 颗粒 状 信号 相关 的 强度 畸变 , 即 产 生 相 干 斑 乘 性 噪声 。 
变化 与 非 变 化 类 的 相关 统计 项 很 难得 到 准确 估计 ,在 相干 斑 抑 制 和 细节 保持 上 存在 矛盾 , 故 
进行 精确 的 多 时 相 SAR 影像 的 变化 检测 存在 较 大 的 困难 。 以 下 从 成 像 机 理 得 出 影响 SAR 
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图 像 变化 检测 的 图 像 特点 : 几何 特性 、 统 计 分 布 特性 、 相 干 斑 噪 声 特性 。 
1. SAR 图 像 的 几何 特性 


一 般 来 说 ,SAR 图 像 是 地 面 的 斜 距 投影 。 在 斜 距 投影 方式 的 SAR 图 像 上 ,距离 向 的 比 
例 尺 是 变化 的 ,其 随 着 侧 视角 的 增 大 而 变 大 ,同样 大 小 的 地 面目 标 , 距 离 天 线 正 下 方 越 近 ,在 
图 像 上 的 尺寸 越 小 , 即 图 像 上 近地点 被 压缩 ,远地点 被 拉 长 。 方 位 向 上 的 比例 尺 是 固定 的 ， 
它 取 决 于 平台 的 飞行 参数 。 在 知道 雷达 的 各 种 参数 后 ,对 雷达 图 像 进 行 插值 等 处 理 可 以 在 
距离 向 \ 方 位 向 上 得 到 相同 的 比例 尺 表 示 。 

当 侧 视角 大 于 地 面 坡度 ,雷达 波束 照射 到 位 于 天 线 同 一 侧 的 斜面 时 ,波束 到 达 项 部 的 斜 
距 和 到 达 底 部 的 斜 距 差 要 小 于 实际 地 面 距离 ,造成 在 图 像 上 的 斜面 长 度 被 缩短 了 , 即 所 谓 的 
“透视 收缩 ”; 同样 对 于 背 向 天 线 的 地 面 斜 坡 , 也 会 出 现 透视 收缩 ,不 过 斜坡 看 起 来 被 拉 长 
了 。 当 侧 视角 小 于 地 面 坡度 ,雷达 波束 到 达 斜 坡 顶部 的 时 间 比 到 达 底 部 的 时 间 短 时 ,和 中 心 
投影 时 的 点 位 关系 相 比 ,会 出 现 项 部 图 像 和 底部 图 像 颠 倒 的 现象 , 称 为 “ 释 掩 倒 像 ?。 由 于 地 
形 一 般 是 非 线性 变化 ,图 像 会 产生 偏 扭 弯曲 等 形变 。 另 外 ,在 实际 应 用 中 ,卫星 、 飞 机 的 飞 
行 轨迹 并 不 能 保证 是 直线 。 在 方位 向 ,图 像 也 会 有 偏 扭 .弯曲 等 形变 ,因此 对 SAR 图 像 进行 
几何 校正 时 ,需要 采用 多 项 式 几 何 校正 。 


2. SAR 图 像 的 统计 分 布 特性 


SAR 图 像 的 分 布 特性 无 论 对 SAR 图 像 相 干 斑 抑 制 问题 ,还 是 SAR 图 像 中 变化 检测 的 
问题 ,都 很 重要 。 研 究 表明 ,在 宽带 高 分 辨 雷达 体制 下 ,场景 杂 波 特性 可 以 从 幅度 统计 特性 
和 相关 特性 (功率 谱 特性 ) 两 方面 同时 进行 描述 , 即 把 场景 杂 波 描述 为 具有 某 种 幅度 分 布 的 
相关 随机 过 程 。 研 究 人 员 提 出 了 几 种 分 布 来 描述 SAR 图 像 的 统计 特性 。 对 于 低 分 辩 SAR 
图 像 的 均匀 区 域 ,幅度 服从 Rayleigh 分 布 ,强度 服从 负 指 数 分 布 。 对 于 分 辩 率 较 高 的 SAR 
Fg f ,广泛 应 用 的 是 对 数 正 态 分 布 和 Weibull 分 布 。 近 年 来 ,国内 外 研究 工作 者 提出 了 用 K 
分 布 .Gamma 分 布 来 描述 SAR 图 像 的 统计 特性 。 目 前 ,研究 人 员 把 宽带 杂 波 中 的 相干 斑 成 
分 和 纹理 分 布 都 看 作 广义 Gamma 分 布 ,这 样 就 得 到 基于 乘积 模型 的 广义 复合 分 布 模型 , 常 
用 的 指数 、 高 斯 、 瑞 利 、 对 数 正 态 、Weibull.Gamma 分 布 都 是 广义 复合 分 布 的 特例 。 


3. SAR 图 像 的 相干 斑 噪声 特性 


在 SAR 图 像 中 ,对 一 个 同 质 区 域 , 即 它 的 后 向 散射 的 物理 特征 是 平稳 的 ,看 上 去 却 显得 
好 像 是 由 许多 不 同 强度 的 像素 组 成 的 ,这 些 像素 点 的 亮度 值 远 不 是 大 致 相同 ,而 是 极其 发 
散 , 对 于 那些 视 数 很 小 的 图 像 尤其 如 此 。 对 于 单 视图 像 ,后 向 散射 强度 为 零 的 概率 最 大 。 另 
外 ,像素 的 方差 随 着 雷达 平均 反射 系数 的 增加 而 增加 。 这 种 发 散 性 使 SAR 图 像 看 起 来 是 一 
种 噪声 极 强 的 颗粒 状 斑点 ,这 种 现象 来 源 于 相干 斑 (speckle) ,也 叫 斑 点 噪声 。 

SAR 发 射 的 是 相干 电磁 波 ,雷达 脉 冲 照射 的 地 表单 元 都 包含 了 很 多 的 散射 点 ,这 一 单 
元 的 总 的 回 波 是 各 个 散射 点 的 相干 琶 加 ,而 每 个 散射 点 回 波 的 相位 同 传感器 与 该 点 的 距离 
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有 关 , 当 传感器 移动 时 ,所 有 单元 内 的 散射 点 的 回 波 相位 都 发 生变 化 ,幅度 也 随 之 变化 ,这 样 
当 传 感 器 移动 中 连续 观测 同一 地 表单 元 时 将 得 到 不 同 的 幅度 ,这 种 幅度 的 变化 称 为 衰落 , 同 
样 地 ,具有 相同 后 向 散射 截面 (RCS) 的 两 个 观测 单元 ,如 果 细 微 特征 有 差异 ,它们 的 回 波 信 
号 也 会 不 同 ,这 样本 来 具有 常数 后 向 散射 截面 的 图 像 的 同 质 区 域 ,像素 间 会 出 现 亮 度 变化 。 
对 分 布 目标 ,可 以 认为 SAR 图 像 中 的 单个 分 辩 单 元 有 许多 离散 的 散射 源 , 当 电波 作用 
于 目标 时 ,每 个 散射 源 都 产生 一 个 后 向 散射 波 ,这 些 散 射 波 的 相位 和 幅度 与 该 散射 源 有 关 ， 
因此 该 分 辨 单元 的 总 回 波 是 各 个 散射 源 回 波 之 和 。 
z=A.et= EIN (13.1) 


其 中 A 是 回 波 幅度 ,8 是 回 波 相位 ,A 和 名 分 别 是 第 & 个 散射 单元 反射 雷达 电磁 波 的 幅度 
和 相位 。 从 式 (13.1) 可 以 看 出 是 观察 的 信号 受 不 同 散射 源 间 的 相位 差异 造成 的 干涉 效应 的 
影响 。 实 际 上 ,相干 斑 可 以 认为 是 一 种 干涉 现象 。 观 察 数据 的 噪声 特性 的 根本 起 因 是 相位 
项 办。 

SAR 图 像 回 有 的 相干 斑 噪 声 严 重 影响 了 图 像 质量 ,不 能 正确 反映 地 物 目 标的 散射 特 
性 ,给 提取 图 像 中 目标 的 信息 造成 了 很 大 的 困难 。 因 而 对 SAR 图 像 应 用 前 ,都 要 进行 相干 
斑 抑 制 , 以 提高 图 像 质量 ,这 是 SAR 图 像 后 处 理 的 必 不 可 少 的 环节 ,也 是 SAR 图 像 处 理 的 
重要 课题 之 一 。 美 国 于 1978 年 最 先 发 射 了 全 球 第 一 颗 装 在 SAR 传感器 的 人 造 地 球 卫 星 
(SEASAT-A) ,获得 了 大 量 的 地 表 信 息 , 极 大 地 推动 了 SAR 理论 与 技术 的 发 展 。 此 后 , 越 
来 越 多 的 国家 和 地 区 对 星 载 SAR、 机 载 SAR 进行 研制 或 发 射 。 目 前 ,国际 上 主要 使 用 的 
SAR 卫星 系统 及 参数 列 于 表 13. 1 中 。 


表 13.1 国际 上 主要 卫星 系统 以 及 相关 参数 
























































SAR 卫星 波长 /mm | 入 射 角 ， 幅 宽 /km | “服役 时 间 县 
ERS-1/2 欧 空 局 790 56 es: 20X20 100 1992—2001 
JERS-1 日 本 570 235 35* 18X18 75 1992—1998 
RADARSAT-1 An X 790 56 23°~56° | 10—100 | 50~500 | 1995—2013 
ENVISAT 欧 空 局 790 56 15°~45° | 20—100 | 100—400 | 2002—2010 
ALOS AA 700 235 8°~60° | 7~100 | 20~350 | 2006—2011 
RADARSAT-2 加 拿 大 798 56 20°~58° | 3—100 | 25~500 | 2007 年 至 今 
TerraSAR-X 德国 514 31 20°~55° | 1~16 | 10—100 | 2007 年 至 今 
TanDEM-X 德国 514 31 20°~55° | 1~16 10~100 | 2007 年 至 今 
COSMO-SkyMed | 意大利 620 31 20*—55* 1~20 10—200 | 2009 年 至 今 
SENTINEL-1 欧 空 局 693 56 20°~45° | 5 一 80 | 20—400 | 2014 年 至 今 
ALOS-2 日 本 628 238 14* 3~100 | 25~350 | 2014 年 至 今 





我 国 对 星 载 极 化 干涉 雷达 系统 的 研制 还 处 在 起 步 阶段 ,已 经 实施 了 环境 与 减灾 卫星 计 
划 , 于 2012 年 底 成 功 发 射 了 搭载 S 波段 单 极 化 SAR 系统 的 环境 1 号 C(HJ-1C) 卫 星 。 随 着 
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研究 的 深入 ,SAR 系统 开始 由 单 波段 . 单 极 化 、 固 定 入 射 角 、 单 工作 模式 逐渐 向 多 波段 多 极 
化 、 多 入 射 角 、 多 工作 模式 和 多 平台 方向 发 展 ,使 得 SAR 在 遥感 应 用 领域 起 到 越 来 越 重 要 的 
作用 ,与 此 同时 应 用 于 SAR 的 变化 检测 技术 也 获得 了 快速 发 展 。 


13.1.3 典型 数据 集 


下 面 介绍 几 组 常用 的 SAR 图 像 数 据 集 : 

(1) Bern 地 区 数据 集 的 原始 影像 分 别 在 1999 年 4 月 和 1999 年 5 月 通过 欧洲 遥感 2 号 
RU SAR 传感器 在 瑞士 Bern 地 区 获得 ,在 此 时 间 段 内 ,泛滥 的 Aare 河 洪水 将 Thun 和 
Bern 两 座 城市 的 部 分 地 区 淹没 ,Bern 机 场 则 是 彻底 被 洪水 淹没 ,前 一 时 刻 的 SAR 影像 显示 
了 洪水 尚未 发 生 时 的 情形 ,后 一 时 刻 的 SAR 影像 中 可 以 清楚 地 看 出 当时 泛滥 的 洪水 ,两 幅 
影像 的 尺寸 均 为 301X301, 如 图 13. 2(a) 和 图 13. 2(b) 所 示 ; 而 变化 参考 图 13. 2(c) 通 过 结 
合 当 地 真实 的 陆地 信息 和 专家 知识 得 到 。 

















(a) 





图 13.2 Bern 地 区 数据 集 


(2) Ottawa 数据 集 是 由 RADARSAT 卫星 分 别 在 1997 年 5 月 和 1997 年 8 月 拍摄 ,分 
辨 率 为 12m, 影 像 大 小 为 290 X350。 该 数据 集 反应 的 是 加 拿 大 Ottawa 地 区 受 雨季 影像 其 
地 表 变 化 情况 ,此 时 间 段 正 值 1997 年 的 雨季 过 后 ,河道 明显 变 窗 。 从 图 13. 3 中 可 以 清楚 地 
看 到 河水 退去 后 露出 的 大 范围 陆地 区 域 , 变 化 参考 图 结合 当地 真实 的 陆地 信息 和 专家 知识 
得 到 。 

G) 黄河 口 数据 集 是 由 Radarsat-2 卫星 分 别 在 2008 年 6 H ffl 2009 年 6 月 拍摄 ,分 辨 
RH 8gm, 影 像 大 小 为 7666X7692, 如 图 13.4(a) 和 图 13.4(b) 所 示 。 其 中 ,2008 年 的 影像 是 
四 视图 ,2009 年 的 影像 是 单 视 图 ,这 也 表明 噪声 对 两 幅 图 像 的 影响 是 不 同 的 。 图 13. 5 和 
图 13. 6 都 是 从 黄河 流域 中 选取 的 一 部 分 ,其 中 图 13. 5(c) 和 图 13. 6(c) 为 人 工 标记 的 参 
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(a) 
图 13.6 黄河 口 数据 集中 选取 的 一 部 分 , 记 为 黄河 口 农田 


13.2 基于 深度 学 习 和 SIFT 特征 的 SAR 图 像 变 化 检测 


本 节 介 绍 一 种 基于 深度 学 习 和 Scale-invariant feature transform (SIFT) 特征 的 SAR 
图 像 变化 检测 方法 ,以 实现 对 SAR 图 像 变 化 区 域 的 准确 检测 。 该 方法 结合 了 深度 学 习 与 
SIFT 特征 两 种 方法 ,直接 通过 SIFT 特征 训练 深度 神经 网 络 , 由 于 SIFT 特征 可 以 反映 图 像 
的 局 部 特征 ,对 图 像 旋转 .尺度 缩放 以 及 亮度 变化 均 具 有 不 变性 ,而 且 对 仿 射 变换 和 噪声 也 
保持 一 定 程 度 的 稳定 性 ,因而 可 以 作为 深度 神经 网 络 的 可 靠 训 练 样本 。 该 方法 思路 简单 明 
确 , 通 过 有 效 利用 原始 图 像 的 特征 提高 了 变化 检测 的 精度 。 

实现 上 述 目的 的 思路 是 : 首先 运用 尺度 不 变 特征 变换 方法 提取 原 图 像 的 SIFT 特征 ,将 
此 作为 训练 样本 ,训练 一 个 深度 神经 网 络 。 再 利用 对 数 比值 法 得 到 原始 图 像 的 差异 图 ,提取 
该 差异 图 每 个 像素 点 的 邻 域 特征 ,以 此 作为 测试 数据 ,输入 到 训练 好 的 深度 神经 网 络 里 进行 
测试 ,输出 最 终 的 变化 检测 结果 。 

这 里 简要 介绍 SIFT 算法 : SIFT 是 David Lowe 于 1999 年 提出 的 局 部 特征 描述 算 子 ， 
并 于 2004 年 进行 了 更 深入 的 发 展 和 完善 。Mikolajczyk 对 包括 SIFT 算 子 在 内 的 十 种 局 部 
描述 算 子 所 做 的 不 变性 对 比 实验 中 ,SIFT 及 其 扩展 算法 已 被 证 实在 同类 描述 算 子 中 具有 
最 强 的 鲁 棒 性 。 

SIFT 特征 的 生成 一 般 包 括 以 下 四 个 步骤 : 

(1) 高 斯 差分 [DOG) 尺 度 空 间 的 生成 ; 

(20 关键 点 的 精确 定位 ; 

(3) 特征 主 方向 的 分 配 ; 

(4) 特征 描述 符 的 生成 。 

总 体 来 说 ,SIFT 算 子 具有 以 下 特点 : 

m SIFT 特征 是 图 像 的 局 部 特征 ,对 平移 、 旋 转 、 尺 度 缩放 、 亮 度 变 化 .遮挡 和 噪声 等 具 

有 良好 的 不 变性 ,对 视觉 变化 、 仿 射 变换 也 保持 一 定 程 度 的 稳定 性 。 
m 独特 性 好 ,信息 量 丰 富 . 适 用 于 在 海量 特征 数据 库 中 进行 快速 ,准确 的 匹配 。 
- 多 量 性 ,即使 少数 的 几 个 物体 也 可 以 产生 大 量 SIFT 特征 向 量 。 
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速度 相对 较 快 , 经 过 优化 的 SIFT 匹配 算法 甚至 可 以 达到 实时 的 要 求 ， a 
可 扩展 性 强 ,可 以 很 方便 地 与 其 他 形式 的 特征 向 量 进行 联合 。 


13.2.1 基本 方法 与 实现 策略 


本 节 方 法 实现 的 总 体 流程 图 见 图 13. 7. 

实现 的 具体 步骤 如 下 : 

(1) ŽA SAR 图 像 。 

读 入 同一 地 区 不 同时 相 的 两 幅 已 配 准 和 校正 的 SAR 图 像 I 
TJ. 

(2) 归 一 化 。 

按照 下 式 , 对 SAR KHR IAJ 进行 归 一 化 ,得 到 归 一 化 后 的 
SAR 图 像 : 








P I — min(D 
max(I) 


(13.2) 
= mE (13.3) SERERE 
其 中 也 表示 SAR 图 像 工 归 一 化 后 的 SAR 图 像 ,min(。) 表 示 取 
最 小 值 操作 ,max(。) 表 示 取 最 大 值 操 作 , 几 表示 SAR FAQ J 1H Rivers 
一 化 后 的 SAR 图 像 。 

(3) 构造 训练 特征 。 ENSURE 

采用 平移 不 变 特征 变换 SIFT 方法 ,分 别提 取 两 幅 归 一 化 后 
SAR 图 像 了 和 J' 的 平移 不 变 特征 变换 SIFT TEES; 和 $: 。 对 两 hanacal 
组 平移 不 变 特 征 变 换 SIFT 特征 S, HIS. 进行 级 联 操 作 , 得 到 级 
联 后 的 特征 S$S。 对 级 联 后 的 特征 S$, 采 用 主 成 分 分 析 PCA 算法 进 
行 降 维 ,得 到 降 维 后 的 特征 S'o 

(4) 将 降 维 后 的 特征 S' 输 入 到 深度 神经 网 络 中 ,训练 深度 神经 网 络 。 训 练 深度 神经 网 
络 的 具体 操作 步骤 如 下 : 

D 初始 化 受 限 玻 尔 效 曼 机 (RBM) 的 参数 。 

© 待 训练 的 特征 S' 使 用 受 限 玻 尔 兹 曼 机 (RBM) 进 行 训练 ,得 到 权重 和 偏 置 ,网 络 层 数 
设 为 4 个 隐藏 层 , 每 一 层 节点 数目 分 别 为 250、150、100、2。 深 度 神经 网 络 的 每 个 隐藏 层 为 
一 个 受 限 玻 尔 兹 曼 机 (RBM) ,每 一 层 训练 50 代 。 

© 使 用 基于 最 小 交叉 炉 的 BP 神经 网 络 对 RBM 训练 网 络 进行 微调 ,训练 代数 为 50 代 。 

@ 得 到 训练 好 的 深度 神经 网 络 。 

(5) 按照 式 (13. 4) ,计算 读 入 的 两 幅 SAR 图 像 的 对 数 比 值 差异 图 像 : 


I+1 
tos( $4 )| (13. 4) 








图 13.7 算法 流程 图 
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其 中 DD 表示 读 入 的 两 幅 SAR 图 像 的 对 数 比 值 差异 图 像 .log(。 ) 表 示 取 自然 对 数 操作 ,| | 
表示 取 绝 对 值 操作 ,I 和 J 分别 表 示 读 入 的 SAR 图 像 。 
(6) 构造 对 数 比 值 差 异 图 像 D 的 邻 域 特征 样本 和 矩阵 。 
采用 邻 域 特 征 提取 方法 ,从 对 数 比 值 差异 图 像 D 构成 的 像素 值 矩阵 中 提取 每 个 像素 点 
的 邻 域 特征 向 量 。 
邻 域 特征 提取 方法 的 具体 操作 步骤 如 下 : 在 对 数 比值 差异 图 像 D 上 选取 一 个 大 小 为 
nX n 像素 的 滑动 窗口 ,将 所 选 窗口 所 有 像素 点 的 值 拉 成 一 个 1XN HE SF E I] fit HEP n 
为 滑动 窗口 的 大 小 ,N= 二 nXn; 回 从 左 到 右 、 从 上 到 下 依次 滑动 窗口 ,得 到 对 数 比 值 差 异 图 
像 D 上 所 有 像素 点 的 邻 域 特征 向 量 。 
将 对 数 比 值 差 异 图 像 D 所 有 像素 点 的 邻 域 特征 向 量 组 成 一 个 M XN 维 的 邻 域 特征 样 
本 和 矩阵 ,其 中 M 表示 对 数 比 值 差 异 图 像 D 中 所 有 像素 点 的 总 数 ,N 表示 对 数 比值 差异 图 像 
D 中 每 个 像素 点 的 邻 域 特征 向 量 的 维 数 。 
(7) 检测 对 数 比值 差异 图 像 D。 
将 对 数 比值 差异 图 像 也 的 邻 域 特 征 样本 矩阵 输入 到 训练 好 的 深度 神经 网 络 中 ,检测 对 
数 比值 差异 图 像 D ,得 到 对 数 比值 差异 图 像 卫 中 每 个 像素 检测 为 变化 类 或 非 变 化 类 的 检测 
类 别 。 
(8) 输出 检测 类 别 。 
此 方法 与 现 有 其 他 技术 相 比 具有 以 下 优点 : 
里 由 于 此 方法 采用 了 尺度 不 变 特征 变换 SIFT 算法 ,提取 了 读 入 SAR 图 像 的 SIFT 特 
征 ,并 利用 该 特征 对 深度 神经 网 络 进行 训练 ,克服 了 现 有 方法 中 训练 样本 的 选取 不 
可 靠 的 问题 ,使 得 本 发 明 提高 了 SAR 图 像 变 化 检测 的 精度 。 

m 由 于 此 方法 提取 了 读 入 SAR 图 像 的 SIFT 特征 ,该 特征 可 以 反映 图 像 的 局 部 特征 ， 
而 且 对 仿 射 变 换 和 噪声 也 保持 一 定 程度 的 稳定 性 ,克服 了 现 有 方法 中 受 噪 声 影 响 导 
致 不 能 有 效 检测 出 变化 区 域 的 问题 ,使 得 本 发 明 提 高 了 SAR 图 像 变化 检测 的 精度 。 

e 由 于 此 方法 提取 了 读 入 SAR 图 像 的 SIFT 特征 ,该 特征 对 图 像 旋转 、 尺 度 缩放 以 及 
亮度 变化 均 具 有 不 变性 ,因而 对 不 同 的 图 像 的 特征 提取 具有 一 定 程 度 上 的 稳定 性 ， 
克服 了 现 有 方法 中 对 于 不 同 的 SAR 图 像 变化 检测 鲁 棒 性 不 高 的 问题 ,使 得 本 发 明 
对 于 不 同 的 SAR 图 像 信息 具有 更 强 的 适应 性 。 


13.2.2 对 比试 验 结 果 分 析 
下 面 结合 仿真 实验 对 本 节 方 法 的 效果 做 进一步 的 说 明 。 
1. 仿真 条 件 


本 节 方 法 的 仿真 实验 是 在 主 频 2. 30GHz 的 Intel Pentium(R) Dual-Core CPU, V f£ 
5GB 的 硬件 环境 和 MATLAB R2015a 的 软件 环境 下 进行 的 。 
本 节 方 法 仿真 实验 所 使 用 的 仿真 参数 如 下 : 
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漏 检 数 : 统计 实验 结果 图 中 发 生变 化 区 域 的 像素 个 数 ,与 参考 图 中 变化 区 域 的 像素 个 数 
进行 对 比 ,把 参考 图 中 发 生变 化 但 实验 结果 图 中 检测 为 未 变化 的 像素 个 数 , 称 为 漏 检 数 FN。 

误 检 数 : 统计 实验 结果 图 中 未 发 生变 化 区 域 的 像素 个 数 ,与 参考 图 中 未 变化 区 域 的 像 
素 个 数 进行 对 比 , 把 参考 图 中 未 发 生变 化 但 实验 结果 图 中 检测 为 变化 的 像素 个 数 , 称 为 误 检 
数 FP。 

正确 率 PCC, PCC==1 一 总 错误 数 /总 像素 数 。 

衡量 检测 结果 图 与 参考 图 一 致 性 的 Kappa 系数 : 

Kappa = aes PREY m (13,5) 

其 中 正确 率 PCC 表示 实际 的 一 致 率 ,PRE 表示 理论 的 一 致 率 。 


2. 仿真 内 容 与 结果 分 析 


该 方法 的 仿真 实验 采用 广义 KI BI (fi GKI 方法 、 模 糊 局 部 信息 C 均值 聚 类 FLICM 方 
法 作为 对 比方 法 ,分 别 对 三 组 SAR 图 像 数 据 包 括 Bern 地 区 Ottawa 地 区 和 黄河 人 海口 地 
区 进行 变化 检测 的 检测 结果 进行 对 比 。 

以 下 具体 对 各 组 实验 的 结果 进行 分 析 : 

第 一 组 SAR 图 像 数据 及 相应 的 变化 检测 参考 图 是 Bern 地 区 的 SAR 图 像 ,如 图 13.8 
所 示 ,图像 大 小 为 301X301, 图 13.8(a) 是 1999 年 4 月 Bern 地 区 的 SAR 图 像 , 图 13.8(b) 
是 1999 4E 5 H Bern 地 区 的 SAR 图 像 ,图 13. 8(c) 是 Bern 地 区 相应 的 变化 检测 参考 图 。 














图 13.8 Bern 地 区 的 SAR 图 像 变 化 检测 结果 






学 习 、 优 化 与 识别 < 


仿真 实验 的 分 析 : 采用 广义 KI 阅 值 GKI 方 法 、 模 糊 局 部 信息 C 均值 聚 类 FLICM 方法 
和 采用 本 节 方 法 得 到 的 变化 检测 结果 分 别 如 图 13. 8Cd) 一 图 13. 8CO Br zs ,对 检测 结果 的 具 
体 对 比分 析 见 表 13.2。 从 图 13. 8 的 视觉 效果 可 以 看 出 ,采用 本 发 明 的 检测 结果 图 与 参考 
图 最 为 接近 。 由 表 13. 2 可 以 看 出 ,此 方法 错 检 的 像素 数 分 别 比 GKI 和 FLICM 少 了 401 个 
和 497 个 ,而 总 的 错误 像素 数 也 分 别 比 两 者 少 了 183 个 和 278 个 ,Kappa 系数 也 比 二 者 分 别 


i 2.69% Al 5.36%. 

















513.2 区 变化 检测 结果 
方 法 FN FP FN+FP PCC/% Kappa/% 
GKI 56 513 569 99. 37 79.13 
FLICM 55 609 664 99. 27 76. 46 
本 节 方 法 274 112 386 99.57 81. 82 

















第 二 组 SAR 图 像 数据 及 相应 的 变化 检测 参考 图 是 Ottawa 地 区 的 SAR 图 像 , 如 图 13. 9 
<350, 图 13.9(a) 是 1997 年 5 月 Ottawa 地 区 的 SAR 图 像 ,图 13. 9(b) 
是 1997 年 8 月 Ottawa 地 区 的 SAR 图 像 , 图 13. 9(c) 是 Ottawa 地 区 相应 的 变化 检测 参 


所 示 ,图 像 大 小 为 290 


考 图 。 





图 13.9 Ottawa 地 区 的 SAR 图 像 变 化 检测 结果 


O 第 13 章 ”基于 深度 神经 网 络 的 SAR 影 像 的 变化 检测 











仿真 实验 的 分 析 : 采用 广义 KI 阅 值 GKI 方 法 、 模 糊 局 部 信息 C 均值 聚 类 FLICM 方法 

和 采用 本 节 方 法 得 到 的 变化 检测 结果 分 别 如 图 13. 9(d) 一 图 13. 9 CO Bez ,对 检测 结果 的 具 

体 对 比分 析 见 表 13. 3。 从 图 13. 9 的 视觉 效果 可 以 看 出 ,采用 本 发 明 的 检测 结果 图 与 参考 

图 最 为 接近 。 由 表 13. 3 可 以 看 出 ,本 节 方 法 的 错 检 像素 数 比 GKI 少 了 904 个 , 漏 检 的 像素 

数 分 别 比 GKI 和 FLICM 少 了 1814 个 和 1493 个 ,而 总 的 错误 像素 数 分 别 比 两 者 少 了 3003 
个 和 415 4, Kappa 系数 也 比 二 者 分 别 高 11.00% Al 3.98%. 
表 13.3 Ottawa 地 区 变化 检测 结果 














方 ” 法 FN FP | FN+FP PCC/% Kappa/ % 
GKI 2962 2391 5353 94.73 80. 29 
FLICM 2641 124 | 2765 97. 28 87. 31 
本 节 方 法 1148 1202 | 2350 97. 68 91. 29 














第 三 组 SAR 图 像 数据 及 相应 的 变化 检测 参考 图 是 黄河 口 农田 地 区 的 SAR 图 像 , 如 
图 13. 10 所 示 ,图 像 大 小 为 306X291, 图 13. 10(a) 是 2008 年 6 月 黄河 口 农田 地 区 的 SAR 
图 像 , 图 13. 10(b) 是 2009 年 6 月 黄河 口 农 田地 区 的 SAR 图 像 ,图 13. 10(c) 是 黄河 口 农 田 
地 区 相应 的 变化 检测 参考 图 。 








(b) (c) 





图 13.10 黄河 口 农 田地 区 的 SAR 图 像 变 化 检测 结果 


仿真 实验 的 分 析 : 采用 广义 KI 阅 值 GKI 方 法 、 模 糊 局 部 信息 C 均值 聚 类 FLICM 方法 
和 采用 本 发 明 方法 得 到 的 变化 检测 结果 分 别 如 图 13. 10(d) 一 图 13. 10(f) 所 示 ,对 检测 结果 
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的 具体 对 比分 析 见 表 13.4。 从 图 13. 10 的 视觉 效果 可 以 看 出 ,采用 本 发 明 的 检测 结果 图 与 
参考 图 最 为 接近 。 由 表 13.4 可 以 看 出 ,本 节 方 法 的 错 检 像 素数 分 别 比 GKI 和 FLICM 少 了 
2392 个 和 30 个 , 漏 检 的 像素 数 分 别 比 GKI 和 FLICM 少 了 2037 个 和 88 个 ,而 总 的 错误 像 
素数 分 别 比 两 者 少 了 4429 个 和 118 个 , Kappa 系数 也 比 二 者 分 别 高 44.27% 和 0. 7996. 


表 13.4 黄河 口 农田 地 区 变化 检测 结果 














方 法 FN FP FN+FP PCC/% Kappa/% 
GKI 2988 2836 5824 93. 46 41. 00 
FLICM 1039 474 1513 98. 30 84.48 
本 节 方 法 951 444 1395 98. 43 85. 27 























13.3 基于 SAE 的 SAR 图 像 变 化 检测 


本 节 介 绍 一 种 基于 堆栈 自 编码 (SAE) 的 SAR 图 像 变化 检测 方法 ,以 实现 对 SAR 图 像 
变化 区 域 的 准确 检测 。 该 方法 先 对 图 像 进行 FCM 聚 类 得 到 预 分 类 图 ,并 将 粗略 的 变化 检 
测 结果 用 以 指导 后 面 Softmax 分 类 器 征调 网 络 的 训练 。 首 先 各 从 两 幅 图 中 选取 对 应 位 置 的 
样本 , 拉 成 向 量 , 再 将 其 级 联 起 来 作为 网 络 的 输入 。 网 络 分 为 两 部 分 ,第 一 部 分 即 是 逐 层 训 
练 SAE 网 络 ,第 二 部 分 是 将 训练 好 的 各 层 再 串联 起 来 ,加 上 Softmax 分 类 器 ,形成 微调 分 类 
器 网 络 , 此 网 络 可 以 看 成 是 一 个 二 分 类 网 络 。 样 本 被 分 为 变化 或 不 变化 两 类 中 的 一 类 , 即 得 
到 最 终 的 变化 检测 结果 。 

这 里 先 简要 介绍 一 下 上 面 用 的 FCM 聚 类 。 

模糊 C 均值 (Fuzzy C-means) 算 法 简称 FCM 算法 ,是 一 种 基于 目标 函数 的 模糊 聚 类 算 
法 ,主要 用 于 数据 的 聚 类 分 析 。 理 论 成 熟 ,应 用 广泛 ,是 一 种 优秀 的 聚 类 算法 。FCM 算法 是 
一 种 基于 划分 的 聚 类 算法 , 它 的 思想 就 是 使 得 被 划分 到 同一 簇 的 对 象 之 间 相 似 度 最 大 ,而 不 
同 簇 之 间 的 相似 度 最 小 。FCM 算法 是 普通 C 均值 算法 的 改进 ,普通 C 均值 算法 对 于 数据 
的 划分 是 硬性 的 ,而 FCM 则 是 一 种 柔性 的 模糊 划分 。 

FCM 算法 的 一 般 步骤 为 ; 

CD 确定 分 类 数 , 指 数 m 的 值 ,确定 迭代 次 数 (这 是 结束 的 条 件 ,当然 结束 的 条 件 可 以 有 
多 种 ); 

(2) 初始 化 一 个 隶属 度 U( 注 意 条 件 一 二 和 为 Ds 

(3) 根据 U 计算 聚 类 中 心 C; 

(4) 这 个 时 候 可 以 计算 目标 函数 了 了 : 

(5) 根据 C 返回 去 计算 U, 回 到 步骤 (3) ,一 直 循环 直到 结束 。 


13.3.1 基本 方法 与 实现 策略 
本 节 方法 实现 的 总 体 流程 图 如 图 13. 11 所 示 。 
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图 13.11 本 节 算 法 总 流程 图 


整体 步骤 分 为 以 下 6 步 。 

(1) 读 和 人 SAR 图 像 。 

读 入 同一 地 区 不 同时 相 的 两 幅 已 配 准 和 校正 的 SAR ARTA, 

(2) 归 一 化 预 处 理 。 

按照 式 (13.6) ,对 SAR 图 像 了 和 J 进行 归 一 化 ,得 到 归 一 化 后 的 SAR 图 像 : 
"A I — min(D 
P = sax nin cts) 
j= J — min(J) (13.7) 


max(J) — min(J) 

其 中 了 表示 SAR 图 像 工 归 一 化 后 的 SAR 图 像 ,min(。) 表 示 取 最 小 值 操 作 ,max(。) 表 示 
取 最 大 值 操作 ,J 表示 SAR 图 像 卫 归 一 化 后 的 SAR 图 像 。 

(3) 粗略 变化 检测 结果 的 生成 。 

利用 FCM 的 聚 类 方法 对 两 幅 影 像 进行 预 分 类 ,并 对 两 个 图 像 的 分 类 结果 对 比 , 若 两 幅 
图 类 标 一 致 , 则 为 未 变化 类 ,否则 为 变化 类 , 据 此 得 到 粗略 变化 检测 结果 ,用 做 后 面 训练 有 监 
督 网 络 的 标签 。 通 过 FCM 算法 得 到 预 分 类 结果 图 的 流程 如 图 13. 12 所 示 。 

(4) 选择 样本 。 

CD 训练 样本 选取 

训练 样本 的 选取 是 根据 粗略 变化 检测 结果 选择 “纯净 ?样本 作为 训练 样本 ,不同 的 是 这 
里 选择 两 个 原始 图 像 对 应 区 域 图 块 (5X5) 分 别 拉 成 向 量 ,然后 级 联 起 来 作为 训练 数据 ,训练 
类 标 是 由 粗略 检测 结果 所 得 到 。 
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图 13.12 预 分 类 结果 图 的 生成 


© 测试 样本 选取 

测试 样本 选取 同样 不 考虑 块 内 类 标 纯度 ,通过 滑 窗 的 方式 在 整个 图 像 上 选取 样本 ,并 采 
取 和 训练 样本 相同 的 处 理 方式 。 

(5) 训练 SAE 网 络 。 

自 编码 网 络 (SAE) 是 一 种 学 习 输 入 数据 中 隐 含 的 一 些 特定 结构 的 学 习 神经 网 络 , 由 于 
自 编码 网 络 是 无 监督 训练 的 ,加 之 多 层 架 构 已 经 在 许多 分 类 和 回归 问题 上 取得 了 很 好 的 结 
果 。 典 型 的 自 编码 网 络 是 应 用 反 向 传播 算法 使 得 网 络 的 输出 值 最 大 限度 趋 近 于 输入 值 ,网 
络 的 各 个 隐 层 单元 即 为 输入 数据 的 一 种 特征 表示 。 栈 式 自 编码 神经 网 络 是 一 个 由 多 层 稀 玻 
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自 编码 器 组 成 的 神经 网 络 ,其 前 一 层 自 编码 器 的 输出 作为 其 后 一 层 自 编码 器 的 输入 。 假 定 
Hwe? WED bey boe? 表示 第 k 个 自 编码 器 对 应 的 W) Wo ,bO b2 参数 ,那么 该 栈 式 
自 编码 网 络 的 编码 过 程 就 是 按照 从 前 往 后 的 顺序 执行 每 一 层 自 编码 器 的 编码 步骤 : 


a? = FQ) (13.8) 

2a = wer a a? + pe» (13. 9) 

同 理 , 栈 式 神经 网 络 的 解码 过 程 就 是 按照 从 后 往 前 的 顺序 执行 每 一 层 自 编码 器 的 解码 步骤 : 
ae) = F(z) (13. 10) 

got m wor » ac? po (13: 1D 


其 中 a" 是 最 深层 隐藏 单元 的 激活 值 , 其 包含 了 我 们 感 兴趣 的 信息 ,这 个 向 量 也 是 对 输入 值 
的 更 高 阶 的 表示 。 本 实验 采用 栈 式 自 编码 (SAE) 网 络 进行 变化 检测 ,该 检测 过 程 分 为 以 下 
两 个 步 又 : 

无 监督 预 训练 

通过 三 层 栈 式 自 编码 网 络 对 原始 图 像 进行 特征 提取 ,网 络 结构 如 图 13. 13 所 示 : 图 中 
面 出 了 三 层 SAE 逐 层 训练 过 程 , 每 一 层 都 通过 重 构 输 入 数据 ,并 使 重 构 数据 尽 可 能 与 输入 
数据 一 致 , 即 减少 重 构 误差 来 训练 本 层 网 络 。 第 二 层 将 第 一 层 的 输出 特征 作为 输入 数据 , 同 
样 最 小 化 重 构 误差 训练 本 层 网 络 , 以 此 类 推 , 逐 层 训练 每 一 层 特征 。 如 图 13. 13 所 示 , 这 里 
输入 层 维 度 是 2X (5 X 5) 维 (x), 每 一 层 的 隐 层 节点 为 100 AE CX,0—— 50 E CX 
25 维 (X,)。 
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图 13. 13 SAE 逐 层 无 监督 预 训练 


@ 有 监督 微调 分 类 器 网 络 

构建 一 个 神经 网 络 模型 如 图 13. 14 所 示 ,使 用 (1) 中 训练 好 的 每 层 特征 初始 化 该 网 络 模 
型 ,并 对 最 深层 的 25 维特 征用 Softmax 分 类 器 进行 二 分 类 , 即 最 终 的 Softmax 分 类 器 输出 
是 一 个 二 维 向 量 ,表示 样本 变化 的 概率 估计 ,1 表示 完全 变化 ,0 表示 不 变化 。 最 终 取 两 者 较 
大 值 作为 样本 变化 与 否 的 判定 。 在 步骤 (4) 中 ,我 们 已 经 选择 好 了 一 部 分 “纯净 "样本 ,这 些 
样本 就 可 以 用 来 微调 这 个 分 类 器 网 络 。 微 调 过 程 采 用 BP 算法 。 
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图 13.14 有 监督 精 调 分 类 器 网 络 
(6) 通过 网 络 最 终 的 输出 ,判定 样本 所 在 区 域 最 终 的 变化 检测 结果 。 
13.3.2 实验 结果 和 分 析 
1. 仿真 条 件 


本 节 方法 的 仿真 实验 是 在 主 频 2. 30GHz 的 Intel Pentium(R) Dual-Core CPU, [A ff 
5GB 的 硬件 环境 和 MATLAB R2015a 的 软件 环境 下 进行 的 。 本 节 方 法 仿真 实验 所 使 用 的 
仿真 参数 与 13. 2 节 相同 , 即 漏 检 数 EN , 误 检 数 FP、 准 确 率 PCC 和 Kappa 系数 。 


2. 仿真 结果 
实验 一 : Ottawa 地 区 变化 检测 结果 如 图 13. 15 所 示 。 





(a) (b) 


图 13.15 Ottawa 地 区 的 SAR 图 像 变化 检测 结果 


结果 分 析 : 如 图 13. 15(a) 所 示 为 根据 初始 分 类 结果 得 到 的 变化 区 域 估计 ,图 13. 15(b) 
所 示 为 通过 SAE 网 络 训练 之 后 的 变化 检测 结果 。 可 以 明显 看 出 ,SAE 训练 有 效 减 少 了 图 











(b) 


图 13.16 黄河 口 数据 集 S 形 地 区 的 SAR 图 像 变 化 检测 结果 


结果 分 析 : 如 图 13. 16(a) 所 示 为 根据 初始 分 类 得 到 的 变化 区 域 估 计 , 图 13. 16(b) 为 最 
终 的 变化 检测 结果 。 从 实验 结果 可 以 看 出 ,最 终 变化 检测 结果 避免 了 一 部 分 噪声 ,仍然 有 一 
些 噪 声 ,观察 这 些 品 声 处 在 粗略 变化 检测 结果 中 基本 覆盖 面积 也 比较 大 ,推断 出 检测 不 精确 
的 原因 可 能 是 由 于 选取 样本 纯度 不 够 ,或 者 由 于 噪声 影响 类 标 不 正确 。 

实验 三 : Bern 地 区 的 变化 检测 结果 如 图 13. 17 所 示 。 





(a) (b) 


图 13.17 Bern 地 区 的 SAR 图 像 变 化 检测 结果 
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结果 分 析 : 如 图 13. 17(a) 所 示 为 根据 初始 分 类 得 到 的 变化 区 域 估计 ,图 13. 17(b) 为 最 
终 的 变化 检测 结果 。 该 组 实验 检测 结果 对 噪声 避免 较 好 ,但 是 变化 区 域 边缘 检测 有 些 缺 陷 ， 
分 析 可 能 与 所 取 的 像素 邻 域 大 小 有 关 , 可 以 改变 邻 域 大 小 测试 ,找到 合适 的 邻 域 范围 得 到 较 
好 的 变化 检测 结果 。 

性 能 分 析 : 表 13.5 所 示 为 三 个 地 区 在 五 个 性 能 方面 的 评价 ,可 以 看 出 该 组 实验 的 PCC 
都 比较 高 ,但 错误 检测 数 仍然 存在 ,可 以 按照 以 上 每 组 实验 的 分 析 改 进 实验 。 


表 13.5 三 组 数据 的 变化 检测 结果 











地 区 FN FP FN+FP PCC/% Kappa/% 
Ottawa 3085 252 3337 96. 78 88.23 
黄河 口 S 形 984 989 1973 98. 65 76.45 
Bern 60 407 467 99.34 75.98 

















13.4 基于 CNN 的 SAR 图 像 变 化 检测 


13.4.1 基本 方法 与 实现 策略 
本 节 方法 实现 的 总 体 流程 图 如 图 13. 18 所 示 。 


c- 

















图 13. 18 本 节 算法 总 流程 图 


整体 步骤 分 为 以 下 6 步 。 
(1) 读 入 SAR 图 像 。 
读 入 同一 地 区 不 同时 相 的 两 幅 已 配 准 和 校正 的 SAR FART AS. 
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(2) 归 一 化 预 处 理 。 

按照 下 式 , 对 SAR BHRI PJ 进行 归 一 化 ,得 到 归 一 化 后 的 SAR 图 像 : 
g e I— min(D 
i 5.420 
J= J — min(J) (13. 13) 


max(J) — min(J) 
其 中 了 表示 SAR 图 像 工 归 一 化 后 的 SAR 图 像 ,min(。) 表 示 取 最 小 值 操作 ,max(“。 ) 表 示 
取 最 大 值 操作 ,J 表示 SAR 图 像 J 归 一 化 后 的 SAR 图 像 。 

(3) 粗略 变化 检测 结果 的 生成 。 

根据 SAR 影像 变化 检测 的 基本 流程 范式 , 即 预 处 理 , 差 异 图 生成 .差异 图 分 析 的 方法 得 
到 粗略 的 变化 检测 图 。 预 处 理 让 两 幅 影像 在 空域 和 谱 域 上 具有 一 致 可 比 性 。 生 成 差异 图 初 
区 分 两 幅 SAR 影像 中 未 变化 类 和 变化 类 ,为 后 续 的 差异 图 分 析 环 节 提 供 基 础 。 差 异 图 分 
析 对 差异 图 分 析 生 成 一 幅 黑 白 二 值 图 。 

OD 选择 样本 。 

D 训练 样本 选取 

训练 样本 选择 时 我 们 采用 固定 大 小 的 窗口 在 差异 图 和 粗略 变化 检测 图 上 滑动 提取 我 们 
需要 的 样本 。 训 练 样本 选取 时 需要 相对 “纯净 ”的 样本 ,如 果 样 本 点 p 满足 以 下 公式 , 则 该 
样本 点 可 以 作为 训练 样本 。 


& 





N( py € N; A Qy —0... (13. 14) 
nn 

JEN, JEFE AR p WIBI, Oy EG D AAR N (ps € Nj A Qs —0;) "KOREA A p 邻 
域 N; 内 等 于 中 心 点 p 的 类 标的 数目 。 参 数 a 以 控制 选择 的 样本 好 坏 。 

Q) 测试 样本 选取 

测试 样本 选取 时 采用 与 选择 训练 样本 时 相同 的 模式 ,不 同 的 是 测试 样本 选取 时 不 考虑 
块 内 类 标 纯度 ,将 整 幅 图 像 滑 框 全 部 选择 ,因此 测试 样本 所 得 的 标记 即 为 我 们 所 需要 的 检测 
结果 。 

(5) 训练 CNN 网 络 。 

由 于 SAR 图 像 成 像 特性 ,在 单 极 化 SAR 影像 变化 检测 领域 最 为 突出 的 困难 是 对 相干 
斑 噪 声 影 响 的 克服 。 卷 积 神经 网 络 (CNN) 在 结构 方面 具有 局 部 感受 野 、 权 值 共享 等 特性 ， 
充分 利用 了 图 像 的 邻 域 信息 ,保证 了 图 像 的 位 移 、 缩 放 、 扭 曲 不 变性 。 本 实验 采用 卷 积 神经 
网 络 对 差异 图 特征 提取 和 分 类 。 网 络 结构 如 图 13. 19 所 示 。 

该 网 络 中 应 用 了 两 个 卷 积 层 和 一 个 下 采样 层 , 对 提取 到 的 特征 利用 Softmax 分 类 器 进 
行 分 类 。 第 一 层 卷 积 层 convl 用 的 是 3X3@10 的 卷 积 核 ,type 类 型 为 same, 即 卷 积 前 和 卷 
积 后 尺寸 相同 ; 第 二 层 卷 积 层 conv2 也 用 的 是 3X3@10 的 卷 积 核 ,type 类 型 为 same; 池 化 
层 pooling 的 池 化 窗口 为 2X2,type 类 型 为 max-pooling, 即 在 每 个 2X2 窗口 中 选择 最 大 值 
作为 输出 。 最 后 经 过 Softmax 分 类 器 ,和 上 一 节 SAE 的 输出 相同 ,转化 成 一 个 二 分 类 问题 ， 
输出 一 个 二 维 向 量 , 通 过 和 标签 构成 误差 函数 . 反 向 回 传 并 微调 整个 网 络 。 
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K 13.19 CNN 训练 网 络 
C6) 通过 网 络 最 终 的 输出 ,判定 样本 所 在 区 域 最 终 的 变化 检测 结果 
13.4.2 对 比试 验 结果 分 析 


1. 仿真 条 件 

本 节 方 法 的 仿真 实验 是 在 主 频 2. 30GHz 的 Intel Pentium(R) Dual-Core CPU A fF 
5GB 的 硬件 环境 和 MATLAB R2015a 的 软件 环境 下 进行 的 。 本 节 方法 仿真 实验 所 使 用 的 
仿真 参数 与 13. 2 节 相 同 , 即 漏 检 数 FN LE EC FP ,准确 率 PCC I Kappa 系数 。 


2. 仿真 结果 
实验 一 : 本 实验 中 分 别 选 取 了 5X5、7X7、9X9 大 小 的 图 像 块 对 Ottawa 地 区 数据 集 进 
行 实验 。 


结果 分 析 : 如 图 13. 20 所 示 , 图 中 分 别 为 Ottawa 地 区 按照 块 大 小 分 别 为 5X5、7X7、 
9X9 所 得 的 变化 检测 结果 图 ,从 图 中 可 以 看 出 当选 取 块 大 小 为 7 时 ,得 到 的 结果 相对 较 好 ， 
因此 之 后 的 实验 中 我 们 选取 大 小 为 7X7 的 块 。 在 该 实验 中 我 们 从 粗略 变化 检测 图 中 选取 
训练 样本 后 ,根据 训练 样本 的 类 标 在 两 类 样本 中 分 别 取 一 部 分 ,作为 训练 数据 训练 网 络 , 训 
练 准确 率 达 到 98%; 所 有 样本 为 测试 数据 ,测试 准确 率 为 96%。 





图 13.20 Ottawa 地 区 变化 检测 结果 
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实验 二 : 黄河 口 S 形 地 区 变化 检测 结果 如 图 13. 21 所 示 。 





图 13.21 黄河 口 S 形 地 区 变化 检测 结果 


结果 分 析 : 依据 Ottawa 地 区 实践 经 验 ,我 们 知道 选择 7X7 大 小 的 块 检测 效果 较 好 , 因 
此 ,黄河 流域 数据 集 ,我 们 也 采用 7X7 大 小 的 块 做 检测 ; 如 图 13. 21000 Bros ,图 13. 21(a) 
为 人 工 标记 参考 图 。 该 检测 结果 基本 将 变化 检测 区 域 全 部 检测 出 来 ,但 是 仍然 有 一 些 噪 声 ， 
分 析 可 能 的 原因 是 粗略 变化 检测 结果 不 好 引起 ,因此 ,可 以 尝试 改变 粗略 检测 的 方法 ,以 进 
- 步 提高 检测 精度 。 
实验 三 : Bern 地 区 变化 检测 结果 如 图 13. 22 所 示 。 








$ 





(b) 


图 13.22 Bern 地 区 变化 检测 结果 


结果 分 析 : 如 图 13. 22 所 示 为 bern 地 区 选取 的 图 块 尺寸 为 7X7 时 所 得 的 变化 检测 结 
果 图 。 该 组 实验 结果 有 效 地 避免 了 噪声 的 干扰 ,变化 区 域 的 检测 较 完 整 ,但 对 比 参考 图 , 仍 
然 有 一 些 细节 检测 不 准确 。 由 此 可 以 推断 出 , 取 块 的 CNN 检测 方法 可 以 适用 于 变化 区 域 
较 大 的 变化 检测 算法 。 
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g 性 能 分 析 : 如 表 13.6 所 示 为 三 组 实验 相应 的 性 能 指标 ,其 中 PCC 指标 即 正确 检测 率 
都 达到 了 95% 以 上 ,但 是 Kappa 系数 还 有 待 提高 。 


表 13.6 三 组 数据 的 变化 检测 结果 














地 区 FN FP FN+FP PCC/% Kappa/% 
Ottawa 1926 2051 3977 96. 32 85.91 
黄河 口 S 形 815 2596 3411 97.28 55.34 
Bern 242 273 515 99.34 71.47 
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高 光谱 图 像 分 类 与 压缩 一 一 深度 神经 网 络 
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14.1 数据 集 及 研究 目的 


14.1.1 高 光谱 遥感 技术 


遥感 (Remote Sensing) 技 术 从 20 世纪 60 年 代 至 今 , 已 经 历 五 十 多 年 的 发 展 。 作 为 一 
种 远 距 非 接触 的 对 地 观测 技术 ,通过 传感器 探测 和 记录 地 物 目标 反射 或 者 辐射 出 的 电磁 波 
根据 不 同 地 物 的 不 同 辐射 波长 ,获得 相关 的 信息 。 然 后 ,对 所 获取 的 光谱 数据 进行 处 理 和 分 
Jr ,根据 数据 的 属性 以 及 规律 进行 定性 或 定量 表示 ,实现 地 物 目标 的 分 类 和 识别 。 琐 感 技术 
以 电磁 辐射 理论 作为 基础 ,同时 涉及 地 理学 、 光 谱 学 、 地 质 学 、 物 理 与 几何 光学 电磁波 理论 
等 多 种 学 科 。 由 于 遥感 图 像 具 有 较 高 的 实时 性 ,地 物 信 息 丰 富 , 覆 盖 的 地 物 面积 广 ,目前 已 
经 成 功 应 用 于 环境 检测 、 地 质 勘探 \ 军 事 侦察 .大 气 海洋 检测 ,精细 农业 等 众多 领域 。 随 着 硬 
件 技 术 和 成 像 设 备 的 快速 发 展 以 及 应 用 需求 的 不 断 变化 ,遥感 图 像 需 要 具有 更 高 的 光谱 分 
辩 率 、 空 间 分 辩 率 以 及 更 加 丰富 的 地 物 信息 ,此 时 ,遥感 技术 从 宽 波 段 成 像 转向 窗 波 段 成 像 
发 展 , 高 光谱 遥感 由 此 而 产生 。 

高 光谱 遥感 技术 利用 成 像 光 谱 仪 , 得 到 几 百 个 很 窄 的 光谱 波段 数据 ,光谱 范围 从 可 见 光 
到 红外 光 , 其 光谱 分 辩 率 相 较 于 传统 遥感 数据 要 高 很 多 ,而 光谱 分 辩 率 越 高 , 越 有 可 能 对 地 
物 进行 准确 的 识别 。 高 光谱 遥感 能 够 在 对 地 物 进 行 成 像 的 同时 ,对 每 个 空间 像 元 进行 光谱 
成 像 ,由 于 高 光谱 遥感 的 光谱 通道 很 多 且 各 光谱 之 间 具 有 连续 性 ,使 得 每 一 个 像 元 的 光谱 信 
息 都 能 够 形成 一 条 平滑 连续 的 曲线 。 因 此 ,高 光谱 遥感 数据 同时 包含 了 丰富 的 空间 信息 与 
光谱 信息 ,将 两 者 相生 加 可 以 得 到 一 个 立方 体 来 代表 高 光谱 遥感 数据 ,使 其 具有 图 谱 合 一 
性 质 , 其 中 两 维 表示 空间 位 置信 息 ,在 二 维 空间 的 基础 上 多 出 一 维 光谱 信息 而 得 到 三 维 的 高 
光谱 数据 立方 体 。 图 14. 1 给 出 高 光谱 数据 的 三 维 结构 示意 图 ,可 以 看 到 ,除了 普通 图 像 的 
两 个 空间 维度 ,还 有 一 位 特征 维度 ,每 一 个 像素 都 是 一 个 具有 多 维特 征 的 量 , 每 个 像素 对 应 
一 条 连续 的 光谱 曲线 。 
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光谱 曲线 
图 14.1 高 光谱 图 像 三 维 数据 的 结构 示意 图 
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总 之 , 相 较 于 传统 的 遥感 ,高 光谱 遥感 具有 的 主要 特点 是 

- 具有 非常 高 的 光谱 分 辩 率 ,成 像 波段 从 可 见 光 到 短波 红外 ,其 波段 宽度 能 够 达到 纳 
米 的 级 别 (10 一 20nmy) ; 

n 具有 光谱 连续 性 ,由 于 成 像 光 谱 仪 得 到 的 波段 数目 大 , 相 邻 的 波段 之 间 存在 重 释 , 形 

成 连续 光谱 曲线 ; 

具有 图 谱 合 一 的 性 质 ,同时 具有 丰富 空间 和 光谱 信息 ,使 两 者 得 以 融合 ; 

具有 高 数据 维度 ,光谱 分 辩 率 的 增加 是 由 于 波段 数目 的 增多 ,也 使 得 数据 的 维度 

越 高 ; 

具有 波段 相关 性 ,波段 之 间 的 重 芭 造成 波段 间 的 光谱 元 余 , 使 波段 之 间 存 在 相关 性 ， 

同时 ,地 物 在 空间 位 置 上 一 般 都 是 成 块 分 布 的 ,在 成 像 过 程 中 ,传感器 对 某 像素 成 像 

时 会 吸收 该 像素 以 及 其 周围 像素 的 辐射 ,所 以 一 般 某 像素 与 周围 像素 具有 相同 的 类 

别 ,也 就 是 空间 相关 性 ; 

获得 标记 样本 的 难度 大 ,由 于 标记 过 程 需要 进行 实地 勘察 ,其 过 程 需 要 耗费 大 量 的 

人 力 财力 ,在 某 些 特殊 情况 下 ,比如 遇 到 自然 灾害 时 ,获取 标记 基本 不 可 能 ,此 时 ,如 

何 能 够 利用 少量 的 标记 样本 进行 分 类 成 为 一 大 难题 。 

我 国 在 研究 成 像 光谱 仪 的 过 程 中 同样 屡 获 硕果 。 我 国 成 功 研制 的 推 扫 式 成 像 光 谱 仪 
(PHI) 和 实用 型 模块 化 机 载 成 像 光谱 仪 (OMIS 为 其 中 的 典型 代表 。2002 年 “神州 "三 号 飞 
船 携带 中 分 辩 率 成 像 光谱 仪 (CMODIS) 成 功 升 空 标志 着 我 国 已 经 拥有 航天 载 光 谱 成 像 仪 ， 
在 时 间 上 仅 次 于 美国 。 在 我 国 的 很 多 技术 领域 中 ,成 像 光谱 仪 均 得 到 广泛 的 应 用 ,同时 随 着 
我 国 的 高 光谱 遥感 技术 的 不 断 进 步 , 已 逐步 与 世界 先进 水 平 齐 头 并 进 。 


14.1.2 高 光谱 遥感 的 研究 目的 


随 着 成 像 技 术 的 迅速 发 展 , 高 光谱 图 像 的 光谱 信息 和 空间 信息 越 来 越 丰富 ,具有 十 分 重 
要 的 意义 ,世界 各 国 广泛 地 研究 和 应 用 高 光谱 分 辩 率 和 高 空间 分 辩 率 的 高 光谱 图 像 。 

在 海洋 应 用 方面 ,世界 各 国 利 用 各 种 成 像 光 谱 仪 ,对 海洋 进行 了 同步 .大 面积 、 实 时 、 连 
续 而 密集 的 海洋 探测 ,获取 海水 水 体质 量 的 存在 形式 和 变化 趋势 。 在 海洋 遥感 中 ,高 光谱 图 
像 的 光谱 信息 主要 由 纯 水 \ 碎 悄 、 无 机 盐 、 浮 游 植物 有 机 物质 以 及 矿物 性 甚 浮 体 多 种 物质 等 
的 复杂 作用 产生 ,其 中 包括 : 各 种 物质 的 光谱 信息 综合 作用 ,使 得 各 个 像素 点 的 反射 模型 和 
光谱 曲线 有 很 大 的 差异 ,呈现 出 较 大 的 随机 性 ,各 个 像素 点 包含 的 物质 和 能 量具 有 时 变性 和 
不 确定 性 。 人 们 主要 利用 高 光谱 遥感 技术 对 海洋 环境 进行 监测 ,协助 海岛 的 测绘 与 管理 , 观 
测 海岸 线 的 地 貌 以 及 海岸 线 环境 的 演变 。 此 外 ,利用 高 光谱 遥感 在 海面 浪 场 、 潮 汐 、 流 场 、 风 
场 、 锋 面 等 方面 也 有 广泛 的 研究 。 

在 资源 勘探 方面 ,人们 主要 利用 高 光谱 成 像 仪 获取 高 光谱 适 感 影像 的 地 物 光 谱 曲 线 ,并 
以 此 为 基础 挖掘 不 同 矿物 质 光谱 反射 曲线 的 差异 性 与 相关 性 ,建立 矿物 质 光 谱 数 据 库 ,我 们 
借助 机 器 学 习 和 模式 识别 理论 ,与 光谱 数据 库 中 已 有 的 不 同 矿 物质 存在 的 光谱 曲线 进行 相 
似 性 匹配 ,实现 矿物 质 的 分 类 ,最 终 快 速 准确 地 识别 大 面积 矿物 ,提高 了 准确 快速 寻 矿 的 可 
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能 性 。 

在 农业 方面 ,为 了 快速 提取 作物 生长 信息 ,检测 作物 的 长 势 ,估算 植被 覆盖 率 和 检测 农 
作物 品质 ,人 们 充分 利用 高 光谱 到 感 技术 ,依靠 光谱 极 高 的 分 辨 率 。 这样 人 们 可 以 调整 物资 
的 投入 量 , 从 而 达到 减少 浪费 ,增加 产量 ,提高 品质 ,保护 环境 质量 和 农业 资源 。 此 外 ,高 光 
谱 通 感 技术 也 可 以 为 精细 农业 提供 农作物 施肥 管理 ,病虫害 防治 等 应 用 提供 科学 的 指导 ,为 
高 科技 农业 的 发 展 提供 有 利 的 技术 保障 和 可 靠 的 数据 来 源 。 

在 军事 方面 ,世界 各 国 主要 利用 高 光谱 各 感 技术 完成 战场 详细 侦察 ,识别 伪装 目标 , 探 
测 计算 目标 真实 温度 和 发 射 率 等 任务 。 通 过 高 光谱 通 感 技术 所 获得 所 观测 目标 的 波段 是 连 
续 的 ,所 以 能 通过 连续 波段 直接 精细 地 反映 出 被 观测 目标 的 光谱 反射 特征 ,从 而 分 辨 出 被 观 
测 目标 表面 以 及 内 部 的 状态 ,最 终 可 以 精确 地 识别 地 面目 标 。 高 光谱 遥感 也 能 够 充分 利用 
目标 光谱 反射 特性 与 伪装 目标 光谱 反射 特性 的 不 同 , 从 而 分 辨 出 军事 装备 ,最 终 成 功 识别 出 
伪装 目标 。 

总 体 来 讲 , 高 光谱 遥感 技术 在 人 们 的 生产 生活 ,社会 的 经 济 发 展 以 及 国家 的 国防 安全 等 
众多 方面 都 有 着 重大 的 意义 。 高 光谱 遥感 技术 的 发 展 也 越 来 越 成 熟 。 积 累 了 海量 ,丰富 的 
高 光谱 遥感 影像 数据 ,这 些 数据 广泛 地 应 用 在 各 个 领域 ,所 产生 的 作用 也 越 来 越 大 。 因 此 ， 
建立 高 光谱 遥感 技术 新 理论 ,完善 高 光谱 遥感 图 像 分 析 的 方法 和 模型 ,寻找 新 的 遥感 影像 处 
理 算法 ,提取 有 效 的 遥感 信息 、 对 生活 ,经 济 和 社会 发 展 都 具有 非常 重要 的 意义 。 

高 光谱 图 像 一 般 被 视 为 一 个 三 维 立方 体 数 据 块 , 即 空间 域 和 光谱 域 。 空 间 域 指 的 是 地 
表 的 物体 特征 ,光谱 域 则 给 出 了 每 一 个 观测 地 物 的 光谱 曲线 。 因 此 ,高 光谱 数据 将 空间 域 特 
征 和 光谱 域 信息 完美 地 融合 到 了 一 起 。 然 而 ,高 光谱 分 类 也 还 有 很 多 问题 要 处 理 , 其 主要 
有 : 数据 元 余 问 题 ,特征 融合 问题 ,标记 样本 数量 问题 ,分 类 器 选择 问题 。 高 光谱 图 像 中 有 
数 百 个 光谱 通道 ,波段 之 间 存 在 着 很 大 的 相关 性 和 元 余 性 ,进而 选择 恰当 的 光谱 通道 进行 分 
类 是 非常 有 必要 的 ,否则 大 量 的 元 余 信息 会 大 大 增加 时 间 复 杂 度 ,影响 分 类 速度 。 在 高 光谱 
数据 分 类 任务 中 ,我 们 最 常用 的 就 是 对 光谱 信息 进行 分 类 , 较 少 考虑 图 像 的 空间 信息 。 因 
此 ,如 何 利用 空间 信息 ,将 高 光谱 图 像 的 空间 信息 和 光谱 信息 融合 在 一 起 ,提高 高 光谱 图 像 
的 分 类 精度 是 目前 面临 的 主要 问题 。 分 类 器 对 于 分 类 所 需 的 训练 样本 数量 要 求 越 来 越 多 ， 
而 实际 标记 的 样本 数量 较 少 , 无 法 满足 训练 所 需 的 标记 样本 的 数量 ,从 而 影响 了 分 类 器 的 分 
类 性 能 。 如 何 大 量 获取 样本 的 标记 是 我 们 需要 解决 的 另 一 问题 。 此 外 ,在 进行 分 类 任务 时 ， 
如 何 利 用 已 有 知识 ,选择 出 色 的 分 类 器 来 完成 分 类 任务 ,并 得 到 理想 的 分 类 精度 ,又 是 一 个 
量 须 解决 的 必要 问题 。 对 于 高 光谱 图 像 的 光谱 域 高 维特 性 和 信息 重复 性 ,在 进行 分 类 时 ,人 
们 可 以 考虑 主 成 分 分 析 或 者 基于 进化 计算 的 选择 方法 对 高 光谱 图 像 先 进行 降 维和 特征 2 学 
习 等 工作 ,降低 高 光谱 图 像 的 维度 。 


14.1.3 常用 的 高 光谱 数据 集 


本 节 中 ,我 们 主要 介绍 四 个 常用 的 公开 数据 集 分 别 是 Indiana Pines 数据 、Salinas 数据 、 
PaviaU 数据 和 PaviaC 数据 。 下 面 对 所 用 实验 数据 进行 详细 介绍 。 
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Pavia University 数据 由 ROSIS 传感器 获得 。 该 数据 在 2003 年 的 意大利 帕 维 亚 地 
拍摄 ,原始 数据 的 空间 大 小 为 610X 340 个 像素 点 ,光谱 覆盖 范围 为 430 一 860nm ,拥有 103 
个 波段 ,空间 分 辩 率 达到 了 1. 3m。 该 场景 中 对 9 类 地 物 进 行 了 标记 ,包括 树木 .土地 .道路 
等 地 物 。 图 14.2 给 出 了 帕 维 亚 大 学 的 某 一 波段 图 和 其 9 类 地 物 的 真实 标签 图 。 表 14. 1 给 
出 了 9 类 地 物 类 别 的 详细 信息 。 
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图 14.2 Pavia University 的 某 一 波段 图 及 其 地 物 真实 标记 图 


表 14.1 Pavia University 类 别 信息 






































# 类 50 样 本 OX 
1 Asphalt 6631 
2 Meadows 18649 
3 Gravel 2099 
4 Trees 3064 
5 Painted metal sheets 1345 
6 Bare Soil 5029 
* Bitumen 1330 
8 Self-Blocking Bricks 3682 
9 Shadows 947 





Indiana Pines 数据 由 AVIRIS 光谱 仪 在 北 印 第 安 纳 州 西部 的 Indiana Pines 地 区 采集 
得 到 。 图 14. 3(a) 给 出 了 该 数据 的 伪 彩 色 图 。 该 观测 数据 场景 包含 了 森林 、 农 田 和 其 他 自 
然 生长 的 草木 ,还 包括 了 两 条 公路 和 铁路 ,以 及 部 分 低 密度 的 住宅 ,其 他 人 工 建筑 和 较 小 的 
道路 。 该 数据 拍摄 于 6 月 ,因此 ,该 场景 中 包含 的 玉米 和 大 豆 处 于 生长 早期 阶段 ,而 且 这 些 
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作物 的 覆盖 率 小 于 5% 。 已 有 的 真实 标记 图 将 场景 中 包含 的 地 物 分 成 了 16 类 ,并 且 表 14.2 
给 出 了 该 数据 详细 的 类 别 信息 。 而 且 , 为 了 获得 更 好 的 分 类 效果 .一些 对 比 度 较 低 或 者 噪声 
含量 较 大 的 波段 被 移 除 ,波段 数 从 220 减少 到 了 200。 图 14. 3(b) 给 出 了 该 数据 的 真实 类 别 


标记 。 





(a) 
图 14.3 Indiana Pines 伪 色 彩 图 像 及 其 地 物 的 真实 标记 图 





表 14.2 Indiana Pines 类 别 信 息 
























































s 类 a 样 本 数 
1 Alfalfa 46 
2 Corn-notill 1428 
3 Corn-mintill 830 
4 Corn 237 
5 Grass-pasture 483 
6 Grass-trees 730 
7 Grass-pasture-mowed 28 
8 Hay-windrowed 478 
9 Oats 20 
10 Soybean-notill 972 
11 Soybean-mintill 2455 
12 Soybean-clean 593 
13 Wheat 205 
14 Woods 1265 
15 Buildings-Grass-Trees-Drives 386 
16 Stone-Steal-Towers 93 





Pavia Center 数据 由 ROSIS 传感器 获得 。 该 数据 拍摄 于 2003 年 的 意大利 帕 维 亚 地 区 ， 
光谱 覆盖 范围 为 430 一 860nm ,空间 分 辩 率 达到 了 1. 3m, 拥 有 103 个 波段 。 该 场景 中 对 9 类 
地 物 进 行 了 标记 ,包括 树木 、 土 地、 道路 等 地 物 。 图 14.4 给 出 了 帕 维 亚 的 某 一 波段 图 和 其 9 
类 地 物 的 真实 标签 图 。 表 14.3 给 出 了 9 类 地 物 类 别 的 详细 信息 。 
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图 14.4 Pavia Center 的 某 一 波段 图 及 其 地 物 真 实 标记 图 


表 14.3 Pavia Center 类 别 信息 














# 类 5 样 本 OX 
1 Water 824 
2 Trees 820 
3 Asphalt 816 
4 Self-Blocking Bricks 808 
5 Bitumen 808 
6 Tiles 1260 
7 Shadows 476 
8 Meadows 824 
9 Bare Soil 820 











Kennedy Space Center(KSC) 数 据 是 由 NASA 的 机 载 可 见 光 / 红 外 成 像 光 谱 仪 (AVIRIS) 
获取 的 ,该 数据 于 1996 年 3 月 23 日 拍摄 于 Florida。 原 始 数据 的 空间 大 小 为 512X 614 个 
像素 点 ,覆盖 面积 接近 20km, 空 间 分 辩 率 为 18m, 包 含 了 176 个 波段 ,其 中 舍弃 了 大 气 水 吸 
































收 波段 ,以 及 低 信 噪 比 波段 。 整 个 数据 包含 了 13 种 不 同 的 地 物 ,包括 灌木 从 、 沼 泽 、 柳 、 水 、 
泥潭 等 。 表 14.4 列 出 了 13 种 地 物 的 详细 信息 。 图 14. 5 展示 了 KSC 数据 的 效果 图 。 
表 14.4 KSC 数据 类 别 信息 

# 类 5 样 本 数 

1 Scrub 347 

2 Willow swamp 243 

3 CP hammock 256 

4 Slash pine 252 

5 Oak/Broadleaf 161 

6 Hardwood 229 

7 Swamp 105 
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* 类 别 样 本 数 
8 Graminoid marsh 390 
9 Spartina marsh 520 
10 Cattail marsh 404 
11 Salt marsh 419 
12 Mud flats 503 
13 Water 927 














图 14.5 KSC 某 一 波段 图 及 其 地 物 真实 标记 图 


14.2 基于 深度 神经 网 络 的 高 光谱 影像 的 分 类 


高 光谱 遥感 技术 不 仅 能 够 准确 地 提供 所 观测 场景 中 地 物 的 光谱 性 质 ,而 且 还 能 够 反映 
地 物 之 间 的 空间 关系 ,实现 了 空 和 谱 的 结合 ,从 而 实现 了 高 光谱 影像 的 可 靠 性 和 丰富 性 。 这 
些 性 质 使 得 人 们 能 够 对 地 物 信息 进行 全 面 的 观测 。 因 此 ,如 何 利用 这 些 丰 富 的 光谱 信息 和 
空间 关系 ,对 高 光谱 影像 地 物 进行 精确 的 分 类 是 高 光谱 遥感 技术 研究 领域 的 一 大 热点 。 高 
光谱 图 像 分 类 技术 经 过 几 十 年 的 研究 和 探索 ,现在 已 经 取得 了 较 大 的 发 展 , 针 对 高 光谱 图 像 
的 特点 ,研究 者 们 提出 了 很 多 的 高 光谱 图 像 分 类 算法 。 总 体 来 说 ,根据 有 无 标记 样本 参与 分 
类 器 的 训练 ,高 光谱 图 像 分 类 方法 大 致 可 以 分 为 三 大 类 : 有 监督 . 半 监 督 和 无 监督 方法 。 

在 对 高 光谱 图 像 进行 分 类 时 谱 间 存在 Hughes 现象 ,也 就 是 说 , 当 训 练 样本 数目 有 限 
时 ,分 类 精度 随 着 图 像 波段 数目 的 增加 而 增加 ,增加 到 某 一 个 临界 点 后 ,继续 增加 反而 会 导 
致 分 类 精度 下 降 。Hughes 现象 的 出 现 通常 与 训练 样本 数目 的 多 少 和 特征 的 维 数 有 关 。 由 
于 高 光谱 图 像 拥 有 更 高 维 的 谱 间 信息 ,传统 的 那些 进行 多 光谱 处 理 的 方法 已 不 再 适合 处 理 
高 光谱 图 像 。 现 在 已 经 有 很 多 高 光谱 图 像 处 理 的 方法 ,例如 ,利用 传统 数据 降 维 的 方法 来 进 
行 特征 提取 , 主要 方法 有 主 成 分 分 析 (Principal Components Analysis. PCA) 、 投 影 寻 踪 方 
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法 (Project Pursuit. PP) , 3h 37. W44) Pr (Independent Component Analysis. ICA). Heit 
几 年 一 些 集成 学 习 的 方法 取得 了 不 错 的 效果 ,Waske 等 人 使 用 随机 特征 选取 的 策略 选取 几 
个 特征 集 , 然 后 分 别 在 特征 集训 练 SVM 分 类 器 ,最 后 通过 各 个 分 类 器 的 结果 来 决策 最 终 分 
类 结果 。 上 面 这 些 方法 都 仅仅 使 用 了 高 光谱 的 谱 间 信息 。 一 些 研究 表明 ,高 光谱 的 空间 信 
息 能 够 描述 物体 的 空间 结构 属性 ,这 些 属性 与 谱 间 信息 结合 能 够 很 好 地 提高 分 类 精度 。 通 
常 认为 相 邻 的 高 光谱 像 元 是 由 相似 的 地 物 构成 的 ,因此 它们 的 光谱 特性 具有 很 高 的 关联 相 
似 性 。 在 进行 高 光谱 图 像 处 理 的 时 候 考虑 像 元 间 空 间 关系 将 大 大 提高 高 光谱 遥感 图 像 处 理 
的 效果 。 马 尔 可 夫 随 机 场 (Markov Random Field,，MRF) 分 类 方法 是 一 种 能 自动 有 效 利 
用 地 物 空间 信息 的 分 类 方法 。MRF 理论 是 建立 在 空间 相关 性 上 的 ,图 像 的 马尔 可 夫 性 定义 
像 元 条 件 概率 只 与 其 邻 域 像 元 相关 ,而 与 其 他 一 切 因 素 无 关 。 基 于 空间 相关 性 的 MRF 模 
型 分 类 算法 为 遥感 图 像 分 类 提供 有 力 工 具 。 

稀 朴 表示 算法 可 以 在 原始 的 高 维度 空间 ,对 高 光谱 数据 进行 分 类 。 该 算法 通过 使 用 有 
标记 的 样本 组 成 过 完备 字典 ,通过 字典 中 少量 训练 样本 的 线性 组 合 表示 测试 样本 ,最 后 考察 
测试 样本 与 其 稀疏 分 解 之 间 的 和 逼 近 程 度 对 测试 样本 进行 分 类 。 在 进行 稀 玻 表示 的 高 光谱 遥 
感 图 像 分 类 中 将 像 元 间 上 下 文 的 关系 考虑 进去 ,构建 了 基于 上 下 文 关系 的 稀 琉 表示 模型 , 联 
合子 空间 追踪 算法 (Simultaneous Subspace Pursuit, SSP) 和 联合 正 交 匹配 追踪 算法 
(Simultaneous Orthogonal Matching Pursuit, SOMP) 。 

现 如 今 ,深度 学 习 在 众多 领域 取得 了 很 好 的 效果 。 它 通过 多 层 的 神经 网 络 来 提取 高 层 
特征 以 描述 高 维 数据 的 复杂 结构 。 到 目前 为 止 ,已 经 有 一 些 深 度 学 习 的 方法 应 用 到 高 光谱 
图 像 分 类 中 来 ,如 堆栈 自 编码 (SAE) 、 深 度 信念 网 (DBN) .深度 卷 积 神经 网 络 (DCNN) 等 。 
接 下 来 将 介绍 深度 学 习 模 型 在 高 光谱 影像 的 分 类 中 的 应 用 。 


14.2.1 基于 堆栈 自 编码 的 高 光谱 影像 的 分 类 


1. 基于 谱 间 信息 的 堆栈 自 编码 模型 


自 编码 器 是 深度 学 习 领 域 中 的 一 种 典型 算法 ,可 以 实现 无 监督 地 提取 数据 的 特征 。 自 
编码 器 由 一 个 三 层 前 馈 神经 网 构成 ,包含 编码 器 和 解码 器 。 编 码 器 用 来 对 原始 特征 进行 纺 
码 , 解 码 器 则 对 编码 后 的 特征 进行 重 构 。 通 过 解码 器 重 构 特征 与 原始 特征 之 间 近 似 的 优化 
条 件 来 进行 无 监督 训练 。 

堆栈 自 编码 网 络 是 指 将 普通 的 自 编码 器 多 层 连 接 后 ,再 连接 一 个 分 类 器 所 得 到 的 神经 
网 络 。 该 网 络 拥有 多 层 自 编码 器 ,可 以 实现 逐 层 编码 提取 特征 。 

如 图 14. 6 所 示 ,该 模型 为 用 于 高 光谱 分 类 的 堆栈 自 编码 网 络 。 该 网 络 包含 四 个 自 编码 
器 和 一 个 逻辑 回归 分 类 器 ,是 基于 谱 间 信息 的 分 类 模型 ,输入 数据 为 原始 高 光谱 图 像 在 某 一 
像 元 上 的 光谱 信息 。 第 一 层 自 编码 器 将 输入 像 元 的 光谱 信息 映射 成 为 第 一 层 的 特征 。 第 一 
个 自 编码 器 训练 结束 后 ,只 保留 了 编码 器 部 分 的 网 络 。 然 后 将 编码 器 的 输出 当 作 下 一 层 的 
输入 ,再 次 按照 逐 层 学 习 的 方式 训练 第 二 个 自 编 码 器 ,保留 编码 器 部 分 的 网 络 。 如 此 递 推 ， 
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图 14.6 基于 谱 间 信息 的 堆栈 自 编码 模型 架构 


直至 将 每 一 层 自动 编码 机 训练 完毕 。 像 这 样 的 训练 方式 可 以 在 每 一 层 上 都 得 到 最 小 化 信息 
的 损失 ,提取 出 的 特征 逐 层 地 变 得 更 抽象 .具有 更 好 的 不 变性 。 最 后 将 提取 的 特征 送 入 分 类 
器 中 ,得 到 最 终 分 类 结果 。 


2. 基于 空间 信息 的 堆栈 自 编码 模型 


如 图 14.7 所 示 ,该 模型 是 基于 空间 信息 的 堆栈 自 编码 模型 ,该 模型 主要 将 目标 像 元 邻 
域 的 空间 信息 以 图 像 块 的 形式 输入 到 网 络 。 由 于 高 光谱 图 像 谱 间 信息 维度 高 ,在 将 图 像 块 
输入 到 网 络 之 前 ,首先 沿 着 光谱 方向 对 整 幅 图 像 做 PCA 变换 ,提取 主 成 分 。PCA 变换 既 能 
将 光谱 信息 进行 降 维 ,又 不 会 改变 空间 信息 的 分 布 。 然 后 在 压缩 后 的 数据 上 目标 像 元 为 中 
心 提 芭 邻 域 图 像 块 (图 像 块 通常 是 几 个 到 十 几 个 像素 大 小 )。 由 于 该 堆栈 自 编码 器 处 理 的 是 
一 维 数据 ,在 编码 之 前 需要 将 每 个 像素 所 提取 的 三 维 数据 立方 体 伸展 成 一 个 一 维 向 量 , 以 便 
将 其 输入 至 堆栈 自 编码 器 中 。 最 后 将 由 多 层 自 编码 器 编码 后 提取 的 特征 输入 至 分 类 器 进行 
分 类 。 该 模型 使 用 的 是 逻辑 回归 分 类 器 。 
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高 光谱 图 像 PCA 降 维 逻辑 回归 层 
原始 数据 领域 信息 自 编码 层 

















图 14.7 基于 空间 信息 的 堆栈 自 编 码 模型 架构 
模型 的 训练 过 程 与 基于 谱 间 信息 的 堆栈 自 编码 模型 相似 ,在 此 不 再 袭 述 。 


3. 基于 空 谱 联合 的 堆栈 自 编码 模型 
图 14. 8 中 的 两 个 模型 分 别 基 于 谱 间 信息 和 空间 信息 , 谱 间 信息 能 够 很 好 地 反映 目标 像 
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元 的 光谱 属性 ,包含 用 于 识别 不 同类 型 的 地 面 的 类 别 中 最 重要 的 信息 。 但 是 , 随 着 技术 的 发 
展 ,高 光谱 图 像 的 空间 分 辩 率 在 逐渐 提高 ,因此 相 邻 像 元 之 间 的 相关 性 也 越 来 越 大 。 现 在 很 
多 研究 表明 ,空间 和 谱 间 信息 结合 能 够 有 力 地 提高 高 光谱 图 像 的 分 类 精度 。 

本 模型 将 结合 前 面 介绍 的 两 个 模型 的 特点 ,将 目标 像 元 的 谱 间 信息 与 其 邻 域 空间 信息 
联合 的 形式 输入 到 自 编码 网 络 中 ,以 获得 更 加 丰富 的 特征 表示 。 如 图 14. 8 所 示 , 模 型 将 经 
过 PCA 降 维 后 的 空间 特征 与 光谱 特征 连接 起 来 ,形成 了 一 个 空 谱 特 征 联合 的 向 量 。 然 后 将 
联合 向 量 作为 堆栈 自 编码 器 的 输入 ,进行 整体 网 络 训练 ,训练 方式 如 上 面 模型 所 述 。 
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图 14.8 基于 空 谱 联合 的 堆栈 自 编码 模型 架构 


4. 实验 结果 分 析 
实验 一 : 


堆栈 自 编码 网 络 的 网 络 层 数 是 影响 模型 性 能 的 一 个 很 重要 因素 ,本 实验 基于 谱 间 信息 
的 堆栈 自 编码 模型 研究 了 自 编码 器 层 数 对 分 类 精度 的 影响 。 实 验 精度 和 分 类 所 用 时 间 如 


表 14.5 所 示 。 





表 14.5 网 络 深度 对 分 类 精度 的 影响 

















"— KSC Pavia 
测试 分 类 精度 /% 分 类 所 用 时 间 /s | 测试 集 分 类 精度 /% 分 类 所 用 时 间 /s 
1 94. 63 0.12 92.93 0.19 
2 95.45 0.15 94.95 0.27 
3 96.55 0.20 94.99 0.35 
4 95. 27 0.22 95.16 0.42 
5 93.91 0.24 95.13 0.48 




















从 实验 结果 来 看 , 自 编码 器 层 数 对 分 类 精度 的 影响 是 很 大 的 。 对 于 含有 176 个 波段 的 
KSC 数据 ,实验 设置 20 个 隐 层 节点 ,13 个 输出 节点 。 对 于 含有 103 个 波段 Pavia 数据 , 实 
验 设置 60 个 隐 层 节点 ,9 个 输出 节点 。 增 加 网 络 深度 也 就 是 对 网 络 增加 隐 层 。 表 14. 5 中 
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结果 是 对 实验 进行 了 5000 轮 预 训练 和 50000 轮 征调 。KSC 数据 在 隐 层 节点 为 3 时 ,测试 < 
分 类 精度 达到 最 高 ,为 96. 55 96 ,此 时 若 再 增加 网 络 层 数 ,分 类 精度 会 有 所 下 降 。Parvia 数据 

在 隐 层 节点 为 4 时 ,测试 分 类 精度 达到 最 高 ,为 95. 16%。 两 个 数据 集 分 类 所 用 时 间 是 随 着 

网 络 层 数 的 增加 而 逐渐 增长 的 。SAE-LR 模型 对 KSC 数据 的 分 析 结 果 如 图 14. 9 Bros ,对 
Pavia 数据 的 分 析 结 果 如 图 14. 10 所 示 。 
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(a) 可 视 化 结 查 (b) 混淆 矩阵 
图 14.9 SAE-LR 在 KSC 数据 上 对 全 图 的 分 类 结果 
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(a) 可 视 化 结果 (b) 混淆 矩阵 
图 14. 10 SAE-LR 在 Pavia 数据 上 对 全 图 的 分 类 结果 
实验 二 : 


本 节 通 过 设置 对 比 实 验 SAE-LR 与 RBF-SVM., 共 执行 100 次 重复 实验 。Kappa 系数 
的 统计 评估 箱 型 图 绘制 在 图 14. 11 (Ca) 和 图 14. 11(b) 中 。 横 坐标 数字 分 别 对 应 于 : 四 基于 
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空间 信息 占 优 特征 的 SAE-LR; 四 基于 空间 信息 占 优 特征 的 RBF-SVM; 四 基于 空 谱 联合 
的 SAE-LR; @ 基 于 空 谱 联 合 的 RBE-SVM, 


SAE-LR 总 是 具有 更 高 的 精度 ,这 也 体现 了 堆栈 自 编码 的 优势 。 














= = 0.985 = 
0.99 i 
i 
0.98 =] 
oast n = x z 
= 098+ | i 5 0975| ES 
2 0.975 T * 2 + 
3 T 1 = 097 T 
z 097| | z 4 | 
Wa ad 
0.965 0.965 £3 = 
1 j 
0.96 i : E 
= 0.96 * 
1 2 3 4 1 2 3 4 
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图 14.11 KSC X Pavia 数据 集 Kappa 系数 的 箱 形 图 














结果 表明 ,在 两 个 数据 集 上 , 空 谱 联合 分 类 的 精度 总 是 高 于 空间 信息 占 优 的 分 类 ,并 且 
能 够 在 署 信 区 间 内 稳定 地 达到 较 高 精度 。 而 基于 空间 信息 占 优 特征 的 RBF-SVM 在 两 个 数 
据 集 上 得 到 的 分 类 精度 最 低 。 再 对 比 两 个 分 类 方法 SAE-LR 与 传统 的 SVM, 可 以 看 出 


接 下 来 的 实验 主要 对 比 了 基于 纯 光 谱 的 分 类 算法 、 基 于 空间 信息 的 分 类 算法 和 空 谱 联 
合 的 分 类 算法 ,这 三 个 模型 分 别 在 两 个 通用 数据 集 上 的 分 类 结果 对 比 , 主 要 评价 指标 有 : 总 
体 精度 (OA) .平均 精度 (AA)、Kappa 系数 以 及 在 每 一 类 上 的 分 类 精度 。 
在 表 14.6 和 表 14.7 中 我 们 可 以 看 到 ,无 论 是 对 于 KSC 数据 还 是 Pavia 数据 ,基于 空 
谱 信息 联合 的 堆栈 自 编码 网 络 模型 在 总 体 精度 (OA) ,平均 精度 (AA) 及 Kappa 系数 上 都 获 
得 了 最 好 的 结果 。 对 于 KSC 数据 来 说 ,基于 空 谱 信息 联合 的 SAE-LR 比 RBF-SVM 能 获得 
更 好 的 分 类 结果 ,三 个 指标 分 别 高 出 0.15% .0. 50%、0.16%。 同 时 ,对 于 一 些 分 类 结果 不 好 


514.6 SAE-LR 及 SVM 用 于 三 种 信息 的 分 类 结果 (在 KSC 数据 上 ) 
































SAE-LR RBF-SVM 
评价 指标 
谱 间 信息 空间 信息 空 谱 联合 谱 间 信 息 空间 信息 空 谱 联合 
AA 0. 9718 0. 9782 0. 9924 0. 9673 0. 9709 0. 9909 
OA 0. 9462 0. 9654 0. 9868 0.9401 0.9571 0.9818 
Kappa 0. 9685 0. 9756 0.9915 0. 9635 0. 9675 0. 9899 
Cl 0. 9862 0. 9931 1. 0000 0.9744 0. 9862 0.9931 
C2 0. 9803 0. 9804 0. 9804 0. 9608 0.9412 1. 0000 
c3 0. 9245 0. 9434 0. 9623 0. 9057 0. 8868 0. 9811 
C4 0. 9047 0. 9286 0. 9524 0. 8679 0. 9762 0. 9286 
C5 0. 8333 0. 8889 0.9444 0. 5882 0. 8056 0. 8611 
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SAE-LR RBF-SVM 
评价 指标 
谱 间 信 息 空间 信息 空 谱 联合 谱 间 信息 空间 信息 空 谱 联 合 

C6 0. 7500 0, 8889 1.0000 0. 9362 0. 9722 1. 0000 
C7 0. 9583 1.0000 1.0000 1. 0000 1.0000 1. 0000 
C8 0. 9814 0.9352 0. 9889 0. 9888 0. 9908 1. 0000 
C9 0, 9816 1. 0000 1. 0000 1. 0000 1. 0000 1. 0000 
C10 1. 0000 1. 0000 1. 0000 1. 0000 0. 9730 1. 0000 
Cll 1. 0000 1. 0000 1. 0000 1. 0000 0. 9271 1. 0000 
C12 1. 0000 0. 9919 1. 0000 1. 0000 0. 9837 1. 0000 
C13 1. 0000 1. 0000 1. 0000 1. 0000 1. 0000 1. 0000 

R 14.7 SAE-LR 及 SVM 用 于 三 种 信息 的 分 类 结果 (在 Pavia 数据 上 ) 

SAE-LR RBF-SVM 

评价 指标 
谱 信 息 空间 信息 空 谱 联 合 谱 信息 空间 信息 空 谱 联合 

AA 0. 9527 0. 9805 0. 9863 0. 9531 0. 9798 0. 9858 
OA 0. 9427 0. 9728 0. 9805 0. 9370 0. 9737 0. 9750 
Kappa 0. 9386 0. 9746 0. 9821 0. 9389 0. 9737 0. 9815 
cl 0. 9531 0. 9830 0. 9753 0. 9619 0. 9823 0. 9879 
C2 0. 9768 0. 9948 0. 9966 0. 9821 0. 9905 0. 9948 
C3 0. 8578 0. 9194 0. 9573 0. 8047 0. 9526 0, 9265 
C4 0. 9706 0. 9883 0. 9894 0. 9554 0. 9824 0. 9956 
C5 1. 0000 1. 0000 1. 0000 0. 9928 1. 0000 1. 0000 
C6 0. 9315 0. 9648 0. 9863 0. 9207 0. 9569 0. 9883 
C7 0. 9263 0. 9535 0. 9457 0. 9041 0. 9380 0. 9380 
C8 0. 8922 0. 9561 0. 9787 0. 9216 0. 9747 0.9774 
C9 0.9759 0. 9952 0. 9952 0. 9902 0. 9856 0. 9663 























的 类 别 , 基 于 空 谱 信息 联合 的 模型 能 够 有 很 大 的 提升 ,如 KSC 数据 的 C6 在 基于 谱 信息 和 空 
间 占 优 信 息 模型 上 的 分 类 结果 分 别 为 75% 和 88. 89 96 ,而 在 基于 空 谱 信息 联合 的 堆栈 自 编 
码 网 络 模型 上 能 达到 100% 的 准确 率 。 

图 14.12 给 出 了 上 述 三 个 模型 在 KSC 与 Pavia 两 幅 图 像 上 分 类 结果 的 可 视 化 结果 。 
由 左 到 右 依次 表示 基于 谱 间 信息 的 堆栈 自 编 码 模型 .基于 空间 信息 的 堆栈 自 编 码 模型 .基于 
空 谱 联 合 的 堆栈 自 编码 模型 分 类 结果 ,各 个 模型 分 别 选择 最 好 堆栈 自 编码 网 络 参数 。 从 分 
类 结果 图 中 可 以 看 出 ,基于 空 谱 联 合 的 堆栈 自 编码 模型 能 够 很 好 地 使 用 数据 的 空间 信息 和 
光谱 信息 ,对 于 分 散 的 嘲 杂 点 和 影子 都 能 够 很 好 地 处 理 。 在 此 需要 注意 的 是 : 空间 邻 域 的 
大 小 对 分 类 结果 影响 很 大 , 邻 域 过 大 虽然 能 够 很 好 地 去 除 杂 点 ,但 是 会 损失 掉 物体 的 形状 和 
细节 。 邻 域 过 小 , 则 去 除 杂 点 的 能 力 会 有 所 损失 。 因 此 ,空间 邻 域 的 大 小 需要 根据 实际 高 光 
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中 谱 图 像 有 所 调整 。 





图 14. 12 ”基于 光谱 信息 、 空 间 信息 以 及 空 谱 联合 的 分 类 结果 图 


14.2.2 基于 卷 积 神经 网 络 的 高 光谱 影像 的 分 类 


卷 积 神经 网 络 已 经 在 自然 图 像 处 理 领 域 取 得 了 很 好 的 效果 , 它 可 以 说 是 当下 使 用 最 多 
的 深度 学 习 模型 。 其 局 部 感受 野 和 权 值 共享 策略 ,减少 了 大 量 的 网 络 模型 参数 。 陈 雨 时 等 
人 提出 使 用 三 维 卷 积 神经 网 络 提取 高 光谱 图 像 的 空 谱 特 征 , 并 取得 了 很 好 的 分 类 结果 。 本 
节 将 按照 陈 雨 时 论文 的 思路 介绍 一 下 卷 积 神经 网 络 在 高 光谱 图 像 分 类 中 的 应 用 。 


1. 基于 谱 间 信息 的 一 维 卷 积 神经 网 络 模型 


通常 情况 下 ,一 个 深度 神经 网 络 包含 多 个 卷 积 流 , 一 个 卷 积 流 包 含 卷 积 和 池 化 两 种 操 
作 。 接 下 来 我 们 首先 介绍 一 下 一 维 卷 积 操作 。 以 下 公式 表示 计算 第 i 层 第 j 个 特征 图 在 第 
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Pol 
Vij = g (bs + 21 2 Whim * VERS) O4. D 
m » 
g(x) = tanh(z) 一 全 一 < (4.2) 
e+e 


其 中 mm Xon e HH BAC E— ESTO PEERS Wijn RIR p 与 第 m 个 特征 图 的 连接 权 值 ， 
P; 表示 的 是 谱 间 维度 的 卷 积 核 的 长 度 b FORES i 层 第 j 个 特征 图 的 偏 置 。 池 化 操作 能 够 
减少 特征 图 的 特征 维 数 ,每 一 个 池 化 操作 都 与 上 一 层 的 卷 积 操作 有 关系 ,最 常见 的 池 化 操作 
是 最 大 化 池 化 ,计算 方式 如 下 : 
aj = maxCar" * uGi 10) (14.3) 

其 中 wn,1) 代 表 处 理 卷 积 层 的 窗 函数 ,a; 代表 邻 域 信息 内 的 最 大 值 。 

基于 谱 间 信息 的 一 维 卷 积 神经 网 络 模型 如 图 14. 13 所 示 , 以 高 光谱 图 像 像 素 点 的 谱 间 
向 量 作 为 网 络 输入 ,以 类 别 的 数目 作为 模型 的 输出 。 该 模型 包含 多 个 卷 积 流 和 一 个 好 辑 回 
归 分 类 器 。 如 图 14. 13 所 示 ,网络 包含 两 个 卷 积 和 两 个 池 化 过 程 。 第 一 层 卷 积 包含 3 个 卷 
积 核 ,第 二 层 卷 积 包含 6 个 卷 积 核 。 
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图 14.13 基于 谱 间 信息 的 一 维 卷 积 神经 网 络 模型 架构 


本 模型 只 考虑 了 高 光谱 图 像 的 谱 间 信息 ,经 过 几 层 的 卷 积 和 池 化 之 后 ,输入 向 量 最 终 被 
转化 为 一 个 包含 谱 间 特征 的 向 量 , 最 后 经 过 分 类 器 的 处 理 得 到 分 类 结果 。 该 模型 使 用 BP 
算法 进行 训练 时 的 参数 优化 。 在 一 维 的 卷 积 神经 网 络 模型 中 ,使 用 了 局 部 连接 和 权 值 共享 
的 策略 来 提高 模型 的 鲁 棒 性 。 


2. 基于 空间 信息 的 二 维 卷 积 神经 网 络 模 型 


与 一 维 卷 积 网 络 形似 ,二 维 卷 积 流 同 样 包含 卷 积 和 池 化 两 个 操作 。 当 计算 第 i 层 第 j 
个 特征 图 在 (z,y) 位 置 上 的 值 V 芒 时 ,计算 公式 如 下 : 
Pj-1Q;-1 


Vi = g (biy + 2121 White Vii) O4. 4 


m 70 q-0 
其 中 m 表示 第 i 一 1 F3 T RR GE DELE IE DR GE W 2, RS Cp q ELTE TIS m 
个 特征 图 的 连接 权 值 ,P; 和 Q; 代表 卷 积 核 的 长 度 和 宽度 ,0. 代表 第 ;i 层 第 7 个 特征 图 的 
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B. 

如 图 14. 14 所 示 是 基于 空间 信息 的 二 维 卷 积 神经 网 络 模型 的 网 络 结构 图 ,该 模型 是 针 
对 一 个 通道 的 谱 信 息 进行 卷 积 操作 的 。 首 先 对 原始 的 高 光谱 图 像 数 据 在 谱 方 向 上 进行 主 成 
分 分 析 , 提 取 主 成 分 。 然 后 以 目标 像 元 为 中 心 选取 图 像 块 ,并 将 图 像 块 的 第 一 个 主 成 分 作为 
网 络 输入 进行 卷 积 操作 ,经 过 两 层 的 二 维 卷 积 和 池 化 操作 之 后 输入 图 像 块 被 转化 为 一 个 特 
征 向 量 ,最 后 将 得 到 的 特征 向 量 输入 到 逻辑 回归 分 类 器 ,得 到 分 类 结果 。 通 常情 况 下 , 卷 积 
核 的 尺寸 为 4X4 或 者 5X5, 池 化 的 核 的 尺寸 为 2X2。 
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图 14.14 基于 空间 信息 的 二 维 卷 积 神经 网 络 模型 架构 


3. 基于 空 谱 联合 的 三 维 卷 积 神经 网 络 模型 


从 上 面 两 个 卷 积 神经 网 络 模型 可 以 看 出 ,一 维 卷 积 神经 网 络 关注 于 提取 谱 间 特征 ,二 维 
卷 积 神经 网 络 关注 于 提取 像素 点 局 部 空间 特征 。 高 光谱 图 像 包含 空间 信息 和 谱 间 信息 ,在 
这 一 部 分 ,我 们 将 介绍 同时 关注 于 提取 空间 和 谱 间 信息 的 三 维 卷 积 神经 网 络 。 

图 14. 15 表示 了 二 维 卷 积 和 三 维 卷 积 操作 的 区 别 ,图 14. 15(a) 表 示 一 个 二 维 卷 积 过 
yogi til 个 通道 经 过 一 个 卷 积 核 操作 之 后 映射 到 另 一 个 特征 图 。 
图 14.15(b) 表 示 一 个 三 维 卷 积 过 程 ,输入 图 像 拥 有 三 个 通道 的 谱 间 信息 (Band1, Band2， 
Band3) ,经 过 这 SER UR M NEUE ENNE EORR A HEIN: 在 进 
行 三 维 卷 积 操作 时 ,由 于 输入 数据 为 三 维 数据 , 当 计算 神经 网 络 第 i 层 第 j 个 特征 图 在 (x， 
yx) 点 值 V 涪 的 计算 公式 如 下 : 

P,-1Q,-1 R 一 1 


Ver =e (bus + 22 21 22 Wigs -Vea aee) Q4, 5) 


m pmo 00 0 
Hp m 表示 第 i 一 1 层 上 与 当前 特征 图 相连 的 特征 图 ,P; 和 Q; 代表 卷 积 核 在 空间 上 的 长 度 
和 宽度 ,R; RARE HE SC EE EIR PW RRI Cp ger) HAE BY Som 个 特征 图 的 
ERDE bi. FCRI i 层 第 7 个 特征 图 的 偏 置 。 

如 图 14. 16 所 示 是 基于 空 谱 联 合 的 三 维 卷 积 神经 网 络 模型 的 网 络 结构 图 。 该 模型 首先 
以 目标 像 元 为 中 心 选取 K XK X B 的 邻 域 块 作为 网 络 的 输入 ,K 表示 图 像 块 在 空域 的 尺寸， 
妃 表 示 高 光谱 图 像 光谱 维度 。 然 后 经 过 两 层 的 卷 积 和 池 化 操作 之 后 将 结果 拉 成 一 列 得 到 特 
征 向 量 , 最 后 将 得 到 的 特征 向 量 输入 到 人 逻辑 回归 分 类 器 ,得 到 分 类 结果 。 
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(a) 二 维 卷 积 说 明 





























(b) 三 维 卷 积 说 明 








图 14.15 二 维 卷 积 和 三 维 卷 积 操作 示意 图 
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图 14. 16 ”基于 空 谱 联合 的 三 维 卷 积 神经 网 络 模型 架构 


4, 实验 设计 及 结果 分 析 


实验 一 : 卷 积 神经 网 络 的 层 数 是 影响 模型 性 能 的 一 个 很 重要 因素 ,本 实验 基于 谱 间 信 
息 的 一 维 卷 积 网 络 模型 研究 了 卷 积 网 络 层 数 对 分 类 精度 的 影响 。 实 验 在 三 个 通用 高 光谱 数 
据 上 进行 测试 ,对 比 了 卷 积 层 数 为 {1,2,3,4,5,6) 的 实验 效果 。 实 验 精度 和 网 络 层 数 如 
图 14.17 所 示 。 

由 实验 结果 可 知 ,Indian Pines 3& & fl] 4$ BUR BOW 4.5 2] 3 VEO 0. 005 IIA 
700 3X. Pavia University POEA 4$ BUZ MO 3.52] 3&9 0. 01, 和 迭代 次 数 为 300。 当 卷 积 
JR BON 3 时 ,KSC 数据 达到 最 高 准确 率 ,该 实验 学 习 率 为 0. 001 ,和 迭代 次 数 为 600。 

K 14. 8 表示 针对 三 个 数据 集 的 网 络 结构 表 , 以 Indian Pines 为 例 ,其 网 络 结构 为 : T1 
C2—83—C4—S85-—C6—87—C8—89—CI0—S11—F12—013, HP 表示 输入 层 ,C K 
示 卷 积 层 ,S 表示 池 化 层 ,F12 表示 全 连接 层 .O13 表示 整个 网 络 的 输出 层 。 


Q 


深度 学 习 、 优 化 与 识别 
SRM RN 


Gg 330 











105 
Q GE Indian Pines 
100 EE Pavia University 
95 mmc 











整体 准确 率 (100%) 











90L 

85 

80} 

75 

70} 

65 

60 

55} 

m 1 2 3 4 


深度 ( 卷 积 层 的 个 数 ) 


D 
e 








图 14.17 网 络 深度 对 分 类 精度 的 影响 


表 14.8 一 维 卷 积 神经 网 络 的 网 络 结构 参数 表 









































C2 C4 C6 C8 C10 
Layer Name Il F12 O13 
S3 S5 S7 S9 S11 
Indian 1*5 1*5 1*4 1*5 1*4 Fully 
. 1 * 200 1*16 
Pines 1*2 1*2 1*2 1*2 1*1 | connected 
Kernel Pavia 1*8 1*7 1*8 Fully 
x i , 1*103 m — 1*9 
Size | University 1*2 1*2 1*2 connected 
1*9 1*9 1*9 1*10 Full; 
KSC | 1«176 一 | xag 
1*2 1*2 1*2 1*2 connected 
Feature Map 1 6 12 24 48 96 256 1 





实验 二 : 本 实验 是 基于 空间 信息 的 二 维 卷 积 神经 网 络 模型 ,对 比 了 RBF-SVM, EMP- 
RBF-SVM,2D-CNN-LR 三 个 模型 在 Indian Pines, Pavia University, KSC 三 个 实验 数据 上 
的 实验 效果 。 各 层 网 络 结构 参数 如 表 14. 9 所 示 。 
表 14.9 二 维 卷 积 神经 网 络 卷 积 流 参数 表 














No. Convolution ReLU Pooling Dropout 
1 4*4*32 Yes 2*2 No 
2 5*5*64 Yes 2*2 5096 
3 4*4*128 Yes No 50% 
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在 实验 中 ,我 们 选取 以 目标 像 元 为 中 心 , 大 小 尺寸 为 (27X 27) 的 图 像 块 作为 网 络 的 输 
入 ,输入 图 像 被 归 一 化 到 [一 0.5,0. 5], 学 习 率 为 0.01, 训 练 的 迭代 次 数 为 200。 由 于 输入 图 
像 块 尺寸 较 小 ,我 们 使 用 了 三 个 二 维 卷 积 层 和 两 个 池 化 层 , 经 过 卷 积 和 池 化 之 后 ,我 们 将 提 
取 的 特征 转化 为 一 个 128 维 的 特征 向 量 用 于 分 类 器 处 理 。 

实验 随机 选取 20 组 训练 数据 和 测试 数据 ,并 在 三 个 模型 上 进行 测试 ,实验 结果 以 “平均 
数 土方 差 " 的 形式 给 出 。OA AA 和 Kappa 结果 如 表 14. 10 所 示 。 


表 14.10 二 维 卷 积 神经 网 络 在 三 个 数据 集 上 的 分 类 结果 






































数 据 集 模 型 RBF-SVM EMP-RBF-SVM 2D-CNN-LR 
OA/% 81. 14 士 1. 47 84. 473-0. 99 89. 993-1. 62 
: * AA/% 85. 283-1. 84 87.1741. 29 97. 193-0. 38 
Indian Pines 
KX100 83. 731. 23 86. 723-1. 07 87.95+1. 90 
Runtime/min 2.77 3.22 5.95 
OA/% 91. 343-0. 61 93. 033-0. 47 94. 043-0. 69 
Pavia AA/% 93. 870. 87 96. 883-0. 79 97.520. 25 
University KX100 89. 8341.9 90. 283-1. 23 92. 433-0. 86 
Runtime/min 6.57 8.27 14.12 
OA/% 88. 093-0. 58 93.150, 85 94. 113-0. 90 
KSC AA/% 82. 513-1. 07 90.5141.11 91. 983-1. 34 
KX100 86. 743-0. 64 85. 36-1. 73 93. 443-1. 00 
Runtime/min 1.21 1.69 3.01 

















从 上 面 的 实验 结果 可 以 看 出 ,2D-CNN-LR 相 比 于 其 他 两 种 RBE-SVM 分 类 结果 有 明 
显 提高 ,OA、AA 和 Kappa 均 优 于 对 比 实验 。 但 是 ,二 维 卷 积 的 实验 时 间 长 于 其 他 两 个 对 比 
模型 。 

实验 三 : 本 实验 是 基于 空 谱 联合 的 三 维 卷 积 神经 网 络 模型 ,该 模型 以 目标 像 元 为 中 心 
提取 图 像 块 , 获 得 的 图 像 块 既 包 含 目 标 像 元 的 空间 邻 域 信息 ,又 涵盖 了 目标 像 元 的 谱 间 信 
I, ,经 过 网 络 模型 处 理 之 后 提取 空 谱 联合 特征 ,再送 入 分 类 器 来 判别 分 类 类 别 。 

在 实验 进行 之 前 ,我 们 首先 将 高 光谱 原始 数据 归 一 化 到 [一 0.5,0. 5] 之 间 , 然 后 以 目标 
像 元 为 中 心 选取 图 像 块 , 块 的 维度 与 原始 数据 维度 相同 ,如 Indian Pines 数据 我 们 可 以 选取 
图 像 块 的 尺寸 为 (27X27X200) ,学 习 率 设 为 0.003, 训 练 迭代 次 数 为 400 次 。 其 他 参数 如 
# 14.11 所 示 。 

输入 模型 的 图 像 块 的 尺寸 是 决定 分 类 结果 的 一 个 很 重要 的 因素 , 它 决 定 目标 像 元 邻 域 
信息 的 多 少 。 在 其 他 参数 固定 的 前 提 下 ,我 们 设计 了 如 下 实验 ,用 来 验证 图 像 块 尺寸 对 分 类 
结果 的 影响 。 我 们 用 图 像 块 半径 作为 变量 来 设计 该 实验 。 如 图 14. 18 所 示 , 分 别 在 三 个 数 
据 集 上 以 半径 为 W=={11,12,13,14,15}) 进 行 实验 分 析 。 由 图 可 知 , Indian Pines, Pavia 
University 和 KSC 三 个 数据 集合 适 的 输入 图 像 块 半径 分 别 为 14. 13 和 13。 
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表 14.11 三 维 卷 积 神 经 网 络 卷 积 流 参 数 表 
数 据 集 No. Convolution ReLU Pooling Dropout 
1 4*4*32*128 Yes 2*2 No 
Indian Pines 2 5*5*32* 192 Yes 2*2 50% 
3 4*4* 32 * 256 Yes No 50% 
1 4% 4% 32% 32 Yes 2*2 No 
Pavia 
x 2 5*5*32*64 Yes 2*2 50% 
University 
3 4% 4 * 32% 128 Yes No 50% 
1 4% 4% 32 * 32 Yes 2*2 No 
KSC 2 5*5*32*64 Yes 2*2 50% 
3 4*4* 32 * 128 Yes No 50% 
EH Halfwidth=11 
110 GE Halfwidth=12) 
(SS Halfwidth-13 
GE Halfwidth=14) 
100 GB Halfwidth=15 
Š 90 
= so 
= 
Š 
= 7 
60 
50 
1 
数据 集 1 : Indian Pines; 2:Pavia University; 3:KSN 
图 14.18 图 像 块 半径 对 分 类 的 影响 
下 一 步 我 们 将 对 比 3D-RBF-SVM, 3D-EMP-RBF-SVM, 3D-CNN-LR 三 个 模型 在 


Indian Pines、Pavia University, KSC 三 个 实验 数据 上 的 实验 效果 。 本 实验 随机 选取 20 组 训 
练 数据 和 测试 数据 ,并 在 三 个 模型 上 进行 测试 ,实验 结果 以 “平均 数 土 方差 ”的 形式 给 出 。 





























OA、AA 和 Kappa 结果 如 表 14. 12 Bros. 


由 表 14. 12 实验 结果 所 示 , 相 比 于 传统 的 支撑 矢量 机 ,基于 空 谱 联合 的 三 维 卷 积 神经 网 
络 模型 能 够 更 好 地 提取 空 谱 联合 特征 进行 高 光谱 图 像 分 类 ,在 OA AA 和 Kappa. 上 显示 出 


更 好 的 结果 。 








表 14.12 三 维 卷 积 神经 网 络 在 三 个 数据 集 上 的 分 类 结果 
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数 据 集 模 型 3D-RBF-SVM  |3D-EMP-RBF-SVM 3D-CNN-LR 
OA/% 92. 4231. 10 96. 923-0. 81 97. 563-0. 43 
Indian AA/% 92. 143-1. 44 95. 073-0. 88 99. 230.19 
Pines KX100 94. 8341.35 96. 213-0. 91 97. 023-0. 52 
Runtime/min 5.45 11.12 27.92 
OA/% 96. 050. 91 97. 723-0. 61 99. 543-0. 11 
Pavia AA/% 95.730. 61 97.1740. 47 99. 663-0. 11 
University KX100 95. 331. 68 95. 2140. 23 99. 413-0. 15 
Runtime/min 14.10 17.23 46.15 
OA/% 93. 733-0. 67 95. 663-0. 61 96. 3131.25 
is AA/% 90. 551. 52 93. 823-0. 93 94. 683-1. 97 
KX100 93. 0323-0. 75 95.170. 01 95. 903-1. 39 
Runtime/min 2.56 3.78 7.93 








图 14. 19 展示 了 三 种 模型 在 三 个 通用 数据 集 上 的 分 类 效果 图 ,由 左 到 右 分 别 为 
1D-SVM,3D-EMP-RBF-SVM,3D-CNN-LR 对 整 张 高 光谱 图 像 进行 分 类 的 结果 。 由 结果 
可 知 ,1D-SVM 分 类 结果 存在 很 多 叶 杂 的 乱 点 , 错 分 现象 很 明显 ; 3D-EMP-RBF-SVM 分 类 
效果 有 所 改善 , 错 分 杂 点 明显 减少 ,但 局 部 看 上 去 还 是 有 明显 的 错 分 现象 ; 3D-CNN-LR 分 











类 效果 看 上 去 很 规整 , 错 分 杂 点 很 少 , 相 比 于 其 他 两 个 分 类 模型 效果 有 明显 的 提高 。 





(a) 
图 14.19 


(b) 


(e) 


基于 1D-SVM,3D-EMP-RBF-SVM,3D-CNN-LR 模型 的 分 类 结果 图 
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图 14.19 (2) 


14.3 基于 深度 神经 网 络 的 高 光谱 影像 的 压缩 





图 像 压 缩 技术 是 在 保证 图 像 重 建 质量 前 提 下 ,用 尽 可 能 少 的 比特 数 表示 图 像 数 据 中 包 
含 的 信息 。 香 农 (Shannon) 提 出 把 数据 看 作 信 息 和 宛 余 的 组 合 ,数据 宛 余 量 与 其 可 压缩 程 


度 成 正比 。 若 能 大 幅度 去 除 元 余 . 则 可 实现 有 效 压缩 ,降低 描述 图 像 所 需 的 数据 
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传统 的 遥感 图 像 压 缩 一 般 属于 数据 级 压缩 ,只 是 为 了 减少 存储 空间 与 传输 带宽 ,压缩 数 


据 不 包含 图 像 的 特征 。 特 征 级 压缩 较 之 数据 级 压缩 ,不 仅 可 以 减少 存储 空间 与 传输 并 





且 可 以 有 效 减少 图 像 分 类 、 目 标 检测 和 识别 等 后 续 步 又 的 处 理 时 间 。 目 前 ,遥感 


图 像 


Fe m 


的 特征 





级 压缩 方法 还 很 少 , 主 要 是 基于 字典 学 习 的 线性 稀 玻 编码 方法 ,线性 稀 琉 编码 是 一 种 * 浅 层 
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架构 ”下 的 数据 表征 模型 ,只 能 学 习 到 低级 的 诸如 边缘 方向 的 低 阶 特征 ,尽管 可 以 通过 字典 
学 习 获 得 稀疏 描述 空间 ,但 通常 不 能 挖掘 出 复杂 非 结 构 化 场景 的 隐 含 解释 性 因素 。 

高 光谱 图 像 是 一 个 三 维 的 图 像 数 据 体 ,除了 空间 维 图 像 外 ,还 包括 光谱 维 。 由 于 光谱 维 
的 存在 ,高 光谱 图 像 的 数据 量 远 远 超过 普通 的 遥感 图 像 ,这 就 造成 高 光谱 图 像 的 数据 获取 
难 、 传 输 难 及 存储 难 。 故 为 了 实现 对 其 的 应 用 ,必须 有 效 压 缩 高 光谱 图 像 的 数据 量 ,减轻 数 
据 的 存储 与 传输 负担 。 


14.3.1 基于 深度 自 编码 网 络 的 高 光谱 图 像 压缩 方法 


我 们 提出 了 一 种 基于 深度 自 编码 网 络 的 高 光谱 图 像 压 缩 方法 。 深 度 自 编码 网 络 是 一 种 
经 典 的 深度 学 习 模 型 ,可 自动 ,多 层次 提取 高 光谱 图 像 的 抽象 高 阶 稀疏 特征 ,属于 特征 级 压 
缩 方法 。 由 于 只 需 对 压缩 图 像 做 简单 的 反 量 化 和 编码 操作 ,减少 了 后 期 处 理 的 时 间 , 可 用 于 
高 光谱 图 像 的 在 轨 实 时 大 倍率 压缩 ,存储 与 传输 。 

为 了 克服 现 有 算法 压缩 前 需要 先进 行 去 光谱 间 相 关 性 的 不 足 , 深 度 自 编码 网 络 将 高 光 
谱 图 像 所 有 波段 的 三 维 数据 作为 网 络 的 输入 ,网 络 自动 提取 空间 以 及 光谱 维 的 特征 ,能 够 去 
除 各 波段 间 的 光谱 元 余 以 及 波段 内 部 的 空间 元 余 。 且 图 像 压 缩 过 程 只 需 进行 一 次 前 向 传 
递 ,其 中 仅 涉及 简单 的 矩阵 乘法 操作 ,因而 实时 性 较 好 ,实现 简单 ,为 在 轨 压 缩 提供 了 可 能 。 

为 挖掘 复杂 非 结构 化 场景 下 的 高 光谱 图 像 的 高 阶 稀 朴 特征 ,利用 深度 学 习 思想 构造 深 
度 自 编码 网 络 ,深度 自 编码 网 络 模型 如 图 14. 20 所 示 。 






























网 络 训练 


























压缩 过 程 解压 过 程 











图 14. 20 网 络 模型 


深度 自 编码 网 络 是 一 个 由 多 个 自 编码 器 组 成 的 神经 网 络 ,如 图 14. 21 所 示 ,其 前 一 层 自 
编码 器 的 输出 作为 后 一 层 自 编码 器 的 输入 ,所 以 每 个 自 编码 器 的 输入 层 节点 数目 与 隐藏 层 
节点 数目 满足 : 后 一 个 自 编码 器 的 输入 层 节点 数 等 于 前 一 个 自 编码 器 隐藏 层 的 节点 数 ,并 
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且 第 一 个 自 编码 器 的 输入 层 节点 数 等 于 原始 输入 的 维度 。 
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图 14.21 深度 压缩 网 络 与 深度 解压 网 络 形成 示意 图 


基于 深度 自 编码 网 络 的 大 压缩 比 高 光谱 图 像 压 缩 方 法 的 具体 步骤 如 下 : 

CD 构建 深度 自 编码 网 络 ,将 多 个 自 编码 器 级 联 堆 释 构成 深度 自 编码 网 络 。 

(2) 训练 深度 自 编码 网 络 ,输入 一 组 训练 图 像 数 据 到 深度 自 编码 网 络 , 训 练 该 网 络 获 
得 优化 的 网 络 参 数 ,得 到 深度 压缩 网 络 和 深度 解压 网 络 。 训 练 好 深度 自 编码 网 络 , 也 就 
训练 好 了 每 个 自 编码 器 ,然后 按 一 定 的 规则 堆 秋 这些 自 编码 器 构成 深度 压缩 网 络 和 深度 
解压 网 络 。 

(3) 将 待 压缩 的 高 光谱 图 像 送 入 深度 压缩 网 络 , 计 算 网 络 各 隐藏 层 的 输出 ,得 到 层次 化 
的 逐步 抽象 的 稀 玻 特征 ,对 高 阶 稀 玻 特征 进行 量化 和 编码 得 到 最 终 压 缩 码 流 , 实 现 高 光谱 图 
像 的 大 倍率 压缩 。 

(4) 在 深度 解压 网 络 中 解压 高 光谱 图 像 ,对 接收 到 的 码 流 进行 反 量化 和 编码 ,得 到 高 阶 
稀 玖 特征 ,将 高 阶 稀 醇 特征 送 入 深度 解压 网 络 , 得 到 解压 后 的 高 光谱 图 人像。 解压 后 的 高 光谱 
图 像 通常 也 称 为 重 构图 像 。 

一 般 来 说 ,峰值 信 噪 比 PSNR 是 传统 的 图 像 压缩 算法 性 能 应 用 最 广泛 的 客观 评价 指标 , 通 
过 计算 误差 的 范 数 度量 来 描述 重 构图 像 与 原始 图 像 的 失真 。 其 计算 公式 如 下 

PSNR = 10。logo(V#s/MSE) (14. 6) 





MSE = yx 2224 SED jo,» (14. 7) 
其 中 Vc 为 采用 某 种 表示 法 所 对 应 的 峰值 ,如 采用 Sit 表示 法 ,对 应 峰值 V pear 255. fG, 


门 为 原始 图 像 在 (i, 站 处 的 像素 值 ,fi,j) 为 重 构图 像 在 (i, 让 处 的 像素 值 ,MN 分 别 为 图 像 
的 行 数 和 列 数 。 



































Q žus m RERO BRA sie CO O 


14.3.2. 实验 设计 及 分 类 结果 


深度 自 编码 网 络 的 训练 数据 库 为 STL-10, 此 数据 库 包 含 10 类 物体 ,分 别 为 airplane, 
bird、car、cat、deer、dog、horse、monkey,ship、truck, 每 幅 图 像 的 大 小 为 96X96X3。 可 从 如 
下 网 址 下 载 : http://cs. stanford. edu/ 一 acoates/stl10/。 由 于 数据 库 较 大 ( 约 2.65GB), 故 
仅 随机 选取 1500 幅 图 像 作为 训练 样本 。 

仿真 实验 的 待 压缩 图 像 为 一 组 干涉 型 高 光谱 图 像 , 图 像 大 小 为 486X509X95, 由 于 图 
像 较 大 ,实验 时 对 图 像 进行 了 8X8 的 分 块 。 采 用 的 自 编码 器 为 稀 琉 自 编码 器 , 稀 琉 项 惩罚 
因子 8—0. 005, RESZ o 一 0. 05; 采用 梯度 下 降 法 调整 各 自 编码 器 网 络 参数 ,迭代 次 数 
200 次 。 应 用 深度 自 编码 网 络 对 高 光谱 图 像 进行 不 同 压缩 倍率 的 压缩 ,不 考虑 量化 与 编码 
的 压缩 比分 别 为 8、16、32。 本 例 中 分 别 采用 了 1 个 .2 个 .4 个 自 编 码 器 ,构成 深度 自 编码 网 
络 并 训练 该 网 络 ,得 到 深度 压缩 网 络 和 深度 解压 网 络 。 硬 件 测 试 平台 是 : 处 理 器 i5-3210M 
2.5GHz, 内 存 4GB, 软 件 平台 为 : Windows 8 64 位 操作 系统 和 Matlab R2014a 64 位 。 

为 了 比较 该 网 络 在 不 同 网 络 结构 下 的 压缩 与 重 构 性 能 ,将 本 例 所 述 的 高 光谱 图 像 在 不 
同 深度 压缩 网 络 结构 下 分 别 进行 8、16、32 倍 的 大 倍率 压缩 ,结果 汇总 至 表 14. 13。 如 果 未 
标注 , 则 训练 数据 数目 为 1500 幅 图 像 , 即 648 000 个 块 ; 耗 时 一 栏 是 指 压缩 高 光谱 图 像 每 波 
段 的 平均 耗 时 。 


表 14.13 不 同 深度 压缩 网 络 结构 下 高 光谱 图 像 压缩 PSNR 值 









































深度 压缩 网 络 结构 压缩 比 | PSNR(CdB, 遥 感 ,波段 10) 耗 时 (ms, 每 波段 ) 
1(64-8) 8 28. 43 23. 16 
1(64-4) 16 27.87 22.11 
1(64-2) 32 14. 76 21.05 
2(64-48-8) 8 30. 48 45, 26 
2(64-48-4) 16 29.19 41.05 
2(64-48-2) 32 27.68 39. 79 
4(64-96-64-32-8) 8 27.52 93.28 
4(64-96-64-32-4) 16 27.77 92.63 
4(64-96-64-32-2) 32 26.74 91.58 
4(64-96-64-32-4,2000 幅 训 练 图 像 ) 16 27.92 93. 68 





图 14. 22(a) 是 一 组 待 压缩 的 高 光谱 图 像 的 第 10 波段 的 原始 图 像 ,图 14. 22(b) 是 一 组 
待 压 缩 的 高 光谱 图 像 的 第 60 波段 的 原始 图 像 ; 图 14. 22(c) 是 采用 4 个 自 编码 器 构成 的 压 
缩 比 为 16 的 深度 压缩 网 络 对 图 14. 22(a) 所 示 图 像 压 缩 后 重 构 结果 图 ; 图 14. 22(d) 是 采用 
4 个 自 编码 器 构成 的 压缩 比 为 16 的 深度 压缩 网 络 对 图 14. 22(b) 所 示 图 像 压缩 后 重 构 结果 
图 。 图 14. 22 中 (c) 所 示 重 构图 像 与 图 14. 22(a) 所 示 原 始 图 像 间 的 PSNR 为 27. 77dB. 
图 14. 22(d) 所 示 重 构图 像 与 图 14. 22(b) 所 示 原 始 图 像 间 的 PSNR 为 26. 68dB. 验证 了 深度 
自 编码 网 络 能 以 较 高 的 质量 压缩 与 重 构 卫 星 禹 感 影像 。 
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图 14.22 压缩 重 构图 


从 表 14. 13 的 PSNR 客观 评价 结果 可 以 看 出 ,在 相同 压缩 比 的 情况 下 : 中 深层 的 深度 
压缩 网 络 能 在 保证 图 像 重 构 质量 的 前 提 下 实现 更 大 的 压缩 比 , 即 采用 两 个 自 编码 器 的 深度 
压缩 网 络 的 压缩 结果 要 优 于 采用 一 个 自 编码 器 的 深度 压缩 网 络 的 压缩 结果 ,这 是 因为 一 个 
自 编码 器 只 能 构成 一 个 浅 层 的 神经 网 络 ,学 习 到 的 只 是 数据 的 低级 特征 AS RETE EI e A i 
特征 。@ 采 用 4 个 自 编码 器 的 深度 压缩 网 络 的 压缩 效果 要 次 于 采用 两 个 自 编码 器 的 深度 压 
缩 网 络 的 压缩 效果 ,但 从 表 14. 22 的 最 后 一 行 可 以 看 出 , 当 我 们 增加 训练 4 个 自 编码 器 构成 
的 深度 自 编码 网 络 的 图 像 数 据 个 数 后 ,PSNR 会 有 所 提高 ,这 说 明 , 更 深层 的 网 络 需 要 更 多 
的 训练 数据 才能 获得 最 优 的 表示 。@ 本 方法 的 实时 性 很 好 ,为 在 轨 压 缩 提 供 了 可 能 ,虽然 网 
络 结构 越 复 杂 , 网 络 参数 就 越 多 ,压缩 高 光谱 图 像 所 需 的 时 间 也 越 长 ,但 基本 上 与 网 络 结构 
复杂 度 呈 线性 关系 ,每 个 波段 的 图 像 压 缩 时间 均 不 超过 0. 1s, 这 是 因为 : 采用 本 方法 压缩 高 
光谱 图 像 , 只 需 将 图 像 输 入 深度 压缩 网 络 , 进 行 一 次 简单 的 前 向 传递 操作 ,涉及 的 运算 多 为 
矩阵 乘法 和 加 法 。 
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15.1 数据 特性 及 研究 目的 


15.1.1 研究 目的 


目标 检测 与 识别 在 生活 中 的 多 个 领域 中 有 着 广泛 的 应 用 , 它 是 将 图 像 或 者 视频 中 目标 
与 其 他 不 感 兴趣 的 部 分 进行 区 分 ,判断 是 否 存在 目标 ,确定 目标 位 置 ,识别 目标 种 类 的 一 种 
计算 机 视觉 任务 。 目 标 检 测 与 识别 是 计算 机 视觉 领域 中 非常 重要 的 一 个 研究 方向 。 随 着 互 
联网 ,人工 智 能 技术 ,智能 硬件 的 迅猛 发 展 , 人 类 生活 中 存在 着 大 量 的 图 像 和 视频 数据 ,这 使 
得 计算 机 视觉 技术 在 人 类 生活 中 起 到 的 作用 越 来 越 大 ,对 计算 机 视觉 的 研究 也 越 来 越 火 热 。 
目标 检测 与 识别 作为 计算 机 视觉 领域 的 基石 ,也 越 来 越 受 到 重视 。 在 实际 生活 中 应 用 也 越 
来 越 广泛 ,例如 : 目标 跟踪 、 视 频 监控 ,信息 安全 ,自主 驾驶 、 图 像 检 索 、 医 学 图 像 分 析 、 网 络 
数据 挖掘 .无 人 机 导航 .遥感 图 像 分 析 、 国 防 系统 等 。 

由 于 近年 来 目标 检测 与 识别 技术 的 火热 发 展 , 越 来 越 多 的 相关 成 果 发 表 在 各 种 顶级 期 
刊 或 者 会 议 上 ,例如 IEEE Transactions on Image Processing (TIP), Computer Vision and 
Image Understanding (CVIU), IEEE Transactions on Pattern Recognition and Machine 
Intelligence (TPAMI). Pattern Recognition, IEEE Transactions on Multimedia, 
International Journal of Computer Vision IJCV).LEEE Con ference on Computer Vision 
and Pattern Recognition(CVPR), International Conference on Computer Vision (1CCV) ， 
European Conference on Computer Vision (ECCV), ACM International Conference on 
Multimedia( ACM MM)。 在 各 国学 者 的 共同 努力 下 ,目标 检测 与 识别 技术 飞速 发 展 ,并 使 
得 最 好 的 目标 检测 与 识别 算法 在 公开 数据 集 上 有 着 跨越 式 的 进步 ,算法 性 能 在 不 断 地 接近 
人 类 的 能 力 。 

就 目标 检测 与 识别 技术 的 研究 现状 来 说 ,可 以 将 其 分 为 两 大 类 ,分 别 为 基于 传统 图 像 处 
理 和 机 器 学 习 算法 的 目标 检测 与 识别 方法 和 基于 深度 学 习 的 目标 检测 与 识别 方法 。 

传统 的 目标 检测 与 识别 方法 主要 可 以 表示 为 : 目标 特征 提取 、 目 标识 别 、 目 标定 位 。 这 
里 所 用 的 特征 都 是 人 为 设计 的 特征 ,例如 SIFT, HOG 特征 等 。 通 过 这 些 特征 对 目标 进行 
识别 ,然后 再 结合 相应 策略 对 目标 进行 定位 。 这 其 中 最 著名 的 工作 之 一 是 Felzenszwalb 团 
队 在 2010 年 提出 的 DPM 模型 。 但 这 些 传统 的 目标 检测 与 识别 方法 在 一 些 公开 的 数据 集 
(PASCAL VOC) 上 并 没有 达到 令 人 满意 的 结果 。 

现 如 今 ,基于 深度 学 习 的 目标 检测 与 识别 方法 已 经 成 为 主流 ,主要 可 以 表示 为 : 图 像 的 
深度 特征 提取 和 基于 深度 神经 网 络 的 目标 识别 和 定位 。 其 中 用 到 的 主要 的 深度 学 习 模型 是 
卷 积 神经 网 络 (CNN) 。2012 年 Hinton 教授 的 团队 利用 卷 积 神经 网 络 设 计 了 AlexNet, 使 
之 在 ImageNet 问题 上 打败 了 所 有 传统 方法 的 团队 .使 得 CNN 成 为 计算 机 视觉 领域 中 最 为 
重要 的 工具 之 一 。 这 促使 机 器 视觉 研究 进入 了 一 个 新 的 阶段 。 随 后 基于 CNN 的 目标 检测 
与 识别 方法 也 逐渐 取代 了 传统 方法 。 目 前 ,可 以 将 现 有 的 基于 深度 学 习 的 目标 检测 与 识别 
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算法 分 为 大 致 三 类 : 基于 区 域 建议 的 目标 检测 与 识别 算法 ,具有 代表 性 的 是 R-CNN Fast 
R-CNN,Faster R-CNN; 基于 回归 的 目标 检测 与 识别 算法 ,具有 代表 性 的 是 YOLO、SSD; 基 
于 搜索 的 目标 检测 与 识别 算法 ,例如 ,基于 视觉 注意 的 AttentionNet, 基 于 强化 学 习 的 算法 。 

基于 区 域 建议 的 目标 检测 与 识别 算法 ,这 类 算法 的 主要 步骤 是 : 首先 通过 ,例如 
Selective Search(SS) , Bing, EdgeBoxes 这 些 目标 候选 区 域 生 成 算法 ,生成 一 系列 候选 目标 
区 域 ,然后 通过 深度 神经 网 络 提取 目标 候选 区 域 的 特征 ,并 用 这 些 特 征 进行 分 类 ,以 及 目标 
真实 边界 的 回归 。 这 种 方式 的 目标 检测 识别 算法 占有 非常 大 的 比率 。 其 中 比较 知名 的 就 是 
Ross Girshick 的 R-CNN 和 Fast R-CNN ,以 及 Shaoqing Ren 的 Faster R-CNN 这 三 种 方 
法 。R-CNN 可 以 说 是 开创 性 地 将 目标 候选 区 域 和 深度 学 习 相 结合 用 来 做 目标 检测 ,在 当时 
是 最 好 的 目标 检测 算法 。 但 由 于 R-CNN 中 单 张 图 片 所 生成 的 候选 区 域 过 多 ,而 且 每 判断 
一 次 候选 区 域 ,就 要 将 图 片 进行 区 域 提取 然后 再 送 入 深度 神经 网 络 , 使 得 这 个 算法 效率 不 
高 。 随 后 ,Ross Girshick 在 R-CNN 的 基础 上 提出 了 Fast R-CNN 算法 ,这 个 算法 不 需要 在 
输入 图 片上 提取 候选 区 域 的 图 块 ,而 是 在 图 像 对 应 的 深度 特征 图 上 提取 候选 区 域 的 特征 图 ， 
并 用 这 个 特征 图 来 做 后 续 的 识别 和 目标 边界 框 回 归 。 这 两 种 方法 的 目标 候选 区 域 都 是 通过 
普通 图 像 处 理 算 法 在 原始 图 像 上 生成 的 ,这 使 得 算法 在 时 间 上 的 消耗 比较 大 ,为 了 改善 这 种 
缺陷 ,Shaoqing Ren 等 人 提出 了 Faster R-CNN 算法 ,该 算法 将 目标 候选 区 域 通过 Region 
Proposal Network(RPN) 来 生成 ,这 使 得 整个 目标 检测 和 识别 过 程 全 部 包含 在 一 个 深度 神 
经 网 络 内 部 ,整个 模型 是 一 个 端 到 端的 过 程 , 这 样 大 大 提高 了 算法 的 速度 。 当 然 这 三 种 方法 
只 是 简单 地 对 目标 候选 区 域 . 目 标的 深度 特征 进行 了 处 理 。 这 些 年 也 有 各 种 各 样 基于 R- 
CNN 框架 提出 的 改进 算法 。 例 如 ,Yuting Zhang 团队 提出 的 通过 贝 叶 斯 优化 和 结构 化 预 
测 的 目标 检测 模型 ,文章 中 指出 ,当时 的 深度 学 习 模型 更 易于 判断 目标 类 别 , 但 是 目标 的 定 
位 仍然 是 个 比较 大 的 问题 ,因此 提出 了 基于 贝 叶 斯 优化 的 搜索 算法 和 一 个 结构 化 的 损失 函 
数 来 改善 目标 定位 结果 。Spyros Gidaris 团队 提出 的 MR-CNN & S-CNN & Loc 模型 ,就 
是 从 目标 候选 区 域 和 目标 深层 特征 图 两 方面 来 提高 检测 精度 。 首 先 将 目标 候选 区 域 分 成 多 
种 不 同 区 域 ,这 样 可 以 更 好 地 表达 目标 以 及 目标 所 在 的 环境 ,然后 用 MR-CNN 提取 这 些 区 
域 的 特征 来 共同 表示 这 个 候选 区 域 ,这 一 部 分 是 对 候选 区 域 的 深度 利用 。 作 者 又 设计 了 语 
义 分 割 的 CNN 模型 S-CNN 来 提取 目标 特征 图 上 的 前 景 特征 ,并 将 这 些 特征 与 MR-CNN 
提取 的 特征 结合 去 做 目标 识别 ,最 后 再 使 用 CNN 来 做 目标 位 置 的 回归 。Yukun Zhu 等 人 
提出 的 segDeepM 模型 也 是 一 种 通过 分 割 并 结合 目标 区 域 的 环境 信息 来 增强 目标 检测 与 识 
别 结 果 的 方法 。 当 然 也 有 学 者 从 深度 特征 和 深度 神经 网 络 结构 方面 来 优化 目标 检测 结果 ， 
例如 ,Tao Kong 等 人 提出 的 HyperNet 模型 ,这 个 模型 就 是 通过 将 深度 学 习 模 型 中 个 别 层 
的 特征 图 进行 融合 生成 Hyper 特征 ,依靠 这 个 特征 生成 目标 候选 区 域 ,然后 提取 目标 候选 
区 域 的 Hyper 特征 进行 目标 检测 和 识别 。 其 他 基于 区 域 建议 的 目标 检测 与 识别 方法 也 有 
很 多 ,例如 Wanli Ouyang 等 人 的 DeepID-Net. Sean Bell 等 人 的 Inside-Outside Net, Ning 
Zhang 等 人 的 Part-based R-CNNs.Jifeng Dai 等 人 的 R-FCN 模型 等 。 

由 于 基于 区 域 建议 的 目标 检测 与 识别 方法 包含 了 各 种 各 样 的 候选 区 域 生成 部 分 ,以 及 
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不 同 的 特征 层 处 理 过 程 ,使 得 这 个 算法 的 实时 性 得 不 到 保证 。 因 此 ,就 催生 了 不 生成 目标 候 
选区 域 而 直接 基于 回归 的 目标 检测 与 识别 算法 ,主要 包括 Joseph Redmon 等 人 提出 的 
YOLO 算法 以 及 Wei Liu 等 人 提出 的 SSD 算法 。YOLO 算法 简单 地 将 图 片 等 分 为 多 个 部 
分 ,然后 通过 深度 神经 网 络 直接 判断 每 一 个 部 分 是 否 存在 目标 ,并 预测 目标 类 别 和 目标 的 边 
界 框 。 这 种 方法 不 需要 产生 目标 建议 区 域 , 节 省 了 图 像 处理 时 间 ,使 得 检测 的 实时 性 得 到 了 
可 靠 的 保证 ,最 快 能 够 做 到 每 秒 处 理 155 帧 图 像 。 当 然 YOLO 这 种 直接 通过 一 个 图 像 块 来 
回归 目标 ,在 检测 和 识别 精度 上 无 法 和 基于 区 域 建议 的 方法 相 比 。 因 此 ,Wei Liu 等 人 提出 
的 SSD 就 结合 了 YOLO 中 的 回归 思想 和 Faster R-CNN 中 的 anchor 机 制 ,并 使 用 不 同 特 
征 图 上 的 多 层 特征 去 检测 和 识别 图 像 中 不 同位 置 的 目标 。 这 样 既 保证 了 检测 和 识别 有 较 快 
的 速度 ,又 保证 了 结果 有 和 基于 区 域 建议 的 目标 检测 与 识别 方法 相近 的 精度 。 

基于 搜索 的 目标 检测 与 识别 算法 也 是 近 两 年 逐渐 出 现 的 , 它 主要 是 用 一 种 自 顶 向 下 的 搜 
索 策 略 在 整个 图 像 上 搜索 目标 ,然后 识别 搜索 到 的 结果 ,可 以 分 为 基于 强化 学 习 的 目标 检测 ， 
例如 Juan C. Caicedo 等 人 的 方法 是 设计 了 9 种 动作 ,通过 深度 神经 网 络 和 深度 Q 学 习 来 预测 
每 次 要 执行 的 动作 ,再 根据 动作 来 搜索 目标 。Miriam Bellver Bueno 等 人 同样 提出 用 强化 学 习 
来 搜索 目标 ,与 Juan C. Caicedo 不 同 的 是 ,Miriam Bellver Bueno 等 人 只 用 了 6 种 动作 来 搜索 目 
标 ,然后 通过 将 图 像 分 层 表示 来 逐渐 缩小 目标 搜索 范围 ,这 个 搜索 过 程 同样 用 到 了 深度 学 习 和 
深度 强化 学 习 中 的 Q 学 习 策 略 , 最 终 达 到 检测 和 识别 的 目的 。 也 可 以 利用 视觉 注意 的 机 理 来 
实现 基于 搜索 的 目标 检测 和 识别 方法 ,例如 ,Donggeun Yoo 等 人 提出 的 AttentionNet 模型 ,这 
个 方法 与 强化 学 习 预 测 目标 搜索 动作 比较 类 似 ,这 里 直接 通过 深度 神经 网 络 来 预测 视觉 注意 
的 趋势 ,根据 预测 出 来 的 趋势 不 断 地 趋向 真实 目标 位 置 , 然 后 识别 对 应 目标 。 

这 些 就 是 对 现 有 主流 的 基于 深度 学 习 的 目标 检测 与 识别 方法 的 简单 概括 ,后 续 章 节 将 
会 对 上 述 3 种 方式 中 比较 有 代表 性 的 模型 做 详细 的 介绍 。 


15.1.2 常用 数据 集 


对 于 目标 检测 与 识别 任务 ,国际 上 有 各 种 公开 的 数据 集 , 其 中 最 具 代 表 性 的 是 
PASCAL VOC 数据 .COCO 数据 、ImageNet 数据 。 这 些 数据 都 是 彩色 自然 图 像 ,基本 上 都 
是 来 源 于 网 络 。 


1. ImageNet 数据 集 


ImageNet 是 一 个 用 于 图 像 分 类 /定位 /检测 的 常见 数据 集 。 包 含 1400 多 万 的 海量 图 像 
数据 ,有 着 1000 个 目标 类 别 ,如 图 15. 1 所 示 。 其 中 超过 百 万 的 图 片 有 着 明确 的 类 别 和 位 置 
信息 的 标注 ,可 以 下 载 的 数据 包括 原始 图 像 、SIFT 特征 .目标 边框 和 目标 属性 等 。 
ImageNet 数据 是 目前 世界 上 图 像 识 别 最 大 的 数据 集 , 在 深度 学 习 和 图 像 领 域 的 发 展 中 有 着 
重要 的 意义 ,很 多 论文 在 研究 中 使 用 到 了 该 数据 集 。 基 于 ImageNet 的 竞赛 Large Scale 
Visual Recognition Challenge(ILSVRC) 推 动 了 计算 机 视觉 识别 挑战 的 持续 发 展 。 随 着 深 
度 学 习 的 发 展 , 近 些 年 来 ,中 国 团队 也 在 该 竞赛 中 屡屡 获得 奖项 。 
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图 15.1 ImageNet 数据 集 


ImageNet 的 具体 信息 如 下 : 

= ARMAS: 21841, 

m 图 像 总 数 : 14197 122, 

标注 目标 的 图 像 数 量 : 1 034 908。 

根据 SIFT 划分 的 图 像 类 别 : 1000 。 

有 SIFT 特征 的 图 像 数量 : 1. 2million, 
数据 集 地 址 : http://www. image-net. org/index。 


2. COCO 数据 集 


COCO(Common Objects in COntext) 是 由 微软 公司 赞助 的 一 个 新 的 用 于 图 像 识 别 /图 
像 分 割 /语义 标注 的 数据 集 ,图 像 的 标注 信息 包括 类 别 / 位 置 和 语义 文本 描述 。COCO 数据 
集 收集 的 是 自然 环境 下 的 包含 常见 对 象 的 日 常 场景 ,有 超过 30 万 幅 图 片 ,250 万 目标 标记 ， 
如 图 15. 2 所 示 。COCO 数据 集中 包含 91 个 常见 的 对 象 类 别 , 其 中 有 超过 5000 个 标记 的 类 
IA 82 个 ,每 张 图 片 中 有 着 不 止 一 个 目标 。COCO 数据 集 分 为 三 个 部 分 : 训练 集 165 482 
例 ,验证 集 81208 例 ,测试 集 81 434 例 。 同 样 , 基 于 COCO 数据 集 的 图 像 识别 挑战 赛 MS 
COCO(CMicrosoft Common Objects in COntext challenges) 也 吸引 了 各 界 的 关注 和 参与 。 

















图 15.2 COCO 数据 集 
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ge 备注 : COCO 数据 集 地 址 链接 为 http://mscoco. org/. 
3. VOC 数据 集 (图 15. 3) 


PASCAL VOC(Pattern Analysis Statistical modelling. Computational and Learning 
Visual Object Classes) 数据 集 是 一 个 用 于 图 像 分 类 /识别 /分 割 的 数据 集 。PASCAL VOC 
中 有 一 万 多 幅 图 片 ,有 20 个 目标 类 别 , 如 图 15. 3 所 示 。 分别 是 人 类 ,动物 ( 鸟 \, 猫 、 牛 、 狗 、 
IŽ) ,交通 工具 (飞机 、 自 行车 . 船 . 公 共 汽 车 ,小 轿车 .摩托 车 ,火车 ), 室 内 (瓶子 ,椅子 、 餐 
桌 、 盆 栽植 物 .沙发 .电视 )。 采 用 这 些 在 生活 中 常见 的 目标 类 别 , 可 以 更 好 地 体现 算法 在 实 
际 应 用 中 的 实用 性 。VOC 数据 集 包 括 训练 集 / 验 证 集 / 测 试 集 三 个 部 分 ,标注 信息 以 XML 
形式 保存 。PASCAL VOC 挑战 赛 从 2005 年 开始 ,到 2012 年 结束 。 虽 然 比 赛 不 再 进行 ,但 
是 VOC 数据 集 图 像 质量 高 ,标注 完善 , 仍 被 很 多 人 研究 采用 ,是 计算 机 视觉 领域 的 重要 数 
据 集 之 一 。 











图 15.3 VOC 数据 集 


备注 : VOC 数据 集 地 址 链接 为 http://host. robots. ox. ac. uk/pascal/ VOC/index. html. 


15.2 基于 快速 CNN 的 目标 检测 与 识别 





基于 区 域 选 择 的 目标 检测 与 识别 算法 是 一 种 现 阶段 最 成 熟 ` 应 用 最 为 广泛 的 目标 检测 
与 识别 框架 。 它 将 整个 检测 识别 过 程 简化 成 一 个 分 类 任务 ,并 利用 深度 学 习 方 法 在 大 规模 
复杂 数据 分 类 上 的 优越 性 能 来 提升 检测 精度 ,这 种 框架 一 经 出 现 就 打败 了 同时 段 出 现 的 其 
他 所 有 目标 检测 方法 。 经 过 各 国学 者 的 不 断 研究 , 极 大 地 提升 了 这 种 框架 下 的 目标 检测 识 
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别 精度 以 及 算法 的 实时 性 。 本 节 将 讲述 几 种 典型 的 结合 深度 学 习 的 基于 区 域 选 择 的 目标 检 
测 与 识别 方法 。 


15.2.1 R-CNN 


在 Ross Girshick 等 人 提出 DPM 方法 之 后 ,目标 检测 进入 了 一 个 瓶颈 期 ,复杂 的 特征 
提取 和 集成 学 习 等 方式 也 只 能 得 到 极其 有 限 的 提升 ,人 工 特征 在 目标 检测 上 起 到 的 作用 越 
来 越 有 限 。 而 深度 学 习 的 出 现 带 来 了 新 的 曙光 ,Ross Girshick 等 人 在 深度 学 习 的 浪潮 下 提 
出 了 一 种 基于 深度 学 习 的 目标 检测 与 识别 方法 一 一 R-CNN. Ross Girshick 将 目标 检测 与 识 
别 任务 划分 为 基于 候选 区 域 提取 的 分 类 任务 ,就 这 样 非常 有 效 地 利用 了 深度 学 习 在 分 类 任 
务 上 的 强大 性 能 ,开创 了 利用 深度 学 习 进行 目标 检测 的 时 代 。 

相 较 于 传统 方法 ,R-CNN 主要 的 优势 有 : 中 利用 的 不 再 是 人 为 设计 的 特征 ,而 是 通过 
深度 学 习 方 法 得 到 的 更 具 表 达能 力 的 深度 特征 ,提高 了 整个 任务 的 识别 精度 ; @ 采 用 区 域 
建议 的 方式 提取 可 能 目标 ,而 不 是 用 滑 窗 的 方式 去 检测 目标 ,这 样 能 够 减少 很 多 不 必要 的 识 
别 过 程 ; @@ 加 入 了 边界 框 回 归 的 策略 来 进一步 提高 检测 精度 。 

当然 仍然 有 不 足 的 地 方 ,例如 ,用 了 区 域 建议 的 方法 ,对 每 个 建议 区 域 都 要 重新 计算 整 
个 网 络 , 使 得 运算 效率 不 高 ,也 没有 将 区 域 建议 过 程 融 合 在 整个 深度 学 习 模 型 中 ,无 法 做 到 
端 到 端的 处 理 任 务 。 

整个 R-CNN 模型 可 以 用 一 句 话 来 概括 ,首先 用 选择 性 搜索 算法 (Selective Search. SS) 
提取 目标 候选 区 域 ,通过 深度 CNN 网 络 提取 每 一 个 候选 区 域 的 深度 特征 ,训练 SVM 分 类 
器 来 对 这 些 特征 进行 分 类 ,最 后 通过 边界 框 回 归 算 法 重新 定位 目标 边界 框 。 整 个 算法 的 框 
架 可 以 用 文中 示意 图 来 表示 ,如 图 15.4 所 示 。 
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E 15.4 R-CNN 模型 整体 框架 


R-CNN 模型 中 首先 要 做 的 就 是 候选 区 提取 ,在 经 典 的 目标 检测 算法 中 ,使 用 的 是 滑 窗 
法 来 进行 候选 区 域 的 提取 。 在 每 张 图 片 中 ,需要 生成 大 量 的 候选 区 ,有 的 甚至 多 达 上 百 万 。 
而 在 R-CNN 中 ,使 用 了 选择 性 搜索 (Selective Search) .预先 提取 一 些 ( 约 为 1 一 2k) 可 能 包 
含 物体 的 候选 区 域 ,随后 对 这 些 区 域 进行 进一步 的 特征 提取 ,判断 是 否 为 目标 ,这 样 大 大 提 
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升 了 算法 的 效率 。 

随后 R-CNN 对 每 一 个 候选 区 域 做 特征 提取 ,该 过 程 使 用 了 深度 网 络 ,这 里 网 络 的 输入 
就 是 经 过 大 小 调整 的 候选 区 域 图 像 。 网 络 设计 上 参考 了 2012 年 Hinton 在 Image Net 上 的 
分 类 网 络 (A Krizhevsky, I Sutskever. G Hinton. ImageNet classification with deep 
convolutional neural networks) ,当然 现在 也 可 以 用 最 后 提出 的 一 些 其 他 的 基础 深度 学 习 模 
型 ,例如 VGG。 由 于 CNN 需要 的 是 固定 大 小 的 图 片 作为 输入 (Alex-net 的 输入 大 小 为 
227X227) ,而 目标 候选 区 的 大 小 并 不 同 。 因 此 在 输入 提取 特征 的 CNN 网 络 之 前 ,需要 将 
候选 区 裁剪 为 227X227 大 小 。 在 论文 中 ,作者 也 讨论 了 几 种 不 同 的 裁剪 方式 。 通 过 特征 提 
取 的 CNN 网 络 ,每 一 个 特征 候选 区 得 到 一 个 4096 维 的 特征 向 量 。 

得 到 深度 特征 后 就 要 依据 这 些 特 征 来 识别 每 个 候选 区 域 。 这 里 使 用 的 分 类 器 为 SVM， 
输入 为 CNN 网 络 提取 的 每 个 候选 区 的 特征 ,输出 为 每 个 候选 区 的 类 别 。 在 PASCAL VOC 
2007 中 ,类 别 数 为 20 类 十 背景 类 。 在 ILSVRC 2013 中 ,类 别 数 为 200 类 十 背景 类 。 

当然 目标 候选 区 域 并 不 一 定 完全 准确 ,因此 这 里 还 需要 做 边框 回归 (Bounding-Box 
Regression) ,这 样 能 使 目标 的 定位 更 为 准确 。 目 标 检 测 的 性 能 衡量 标准 之 一 是 预测 边框 与 
目标 边框 之 间 的 IOU 指数 (两 边框 的 交集 比 并 集 )。 如 果 一 个 预测 边框 与 目标 边框 的 IOU 
太 小 ,那么 这 个 目标 依然 相当 于 没有 检测 到 。 因 此 ,在 R-CNN 中 引入 了 边框 回归 的 策略 。 
这 个 边框 回归 在 本 质 上 和 DPM 中 的 边框 回归 是 一 样 的 。 最 后 就 是 通过 非 最 大 抑制 策略 来 
删 减 不 必要 的 边框 。 

目标 检测 的 标注 数据 通常 是 比较 少 的 。 但 是 图 片 分 类 却 有 着 大 量 的 有 标记 数据 。 实 验 
表明 ,将 一 个 任务 训练 好 的 参数 作为 另 一 个 网 络 的 初始 化 参数 , 相 比 于 随机 初始 化 的 参数 ， 
精度 可 以 有 很 大 的 提高 。 因 此 Ross Girshick 使 用 了 预 训练 加 精 调 的 方法 。ILSVRC 2012 
数据 库 是 一 个 包含 大 量 有 标记 图 片 的 数据 库 。R-CNN 首先 使 用 了 ILSVRC2012 的 全 部 数 
据 对 网 络 进行 预 训练 (也 可 以 直接 使 用 AlexNet 的 网 络 和 训练 参数 ) ,最 后 得 到 的 是 一 个 
1000 维 的 类 别 输出 。 

由 于 PASCAL VOC 2007 中 的 数据 为 20 个 类 别 , 因 此 将 预 训练 后 的 网 络 最 后 一 层 由 
1000 替换 为 21( 包 括 20 个 类 别 和 1 个 背景 类 ) 的 全 连接 层 , 然 后 使 用 PASCAL VOC 2007 
中 的 全 部 数据 对 网 络 进行 微调 。 目 标 和 背景 通过 候选 框 和 标定 框 之 间 的 IOU 来 选取 。 重 
释 比 例 大 于 0.5 时 ,标定 为 目标 ; 小 于 0.5 时 ,标定 为 背景 。 在 每 一 次 迭代 训练 中 都 使 用 32 
个 正 样本 (包括 所 有 类 别 ) 和 96 个 背景 样本 组 成 的 128 张 图 片 的 batch 进行 训练 。 精 调 使 
用 的 算法 为 随机 梯度 下 降 (SGD) 。 

在 测试 阶段 ,首先 通过 SS 得 到 1 一 2k 个 目标 候选 区 。 将 每 个 候选 区 缩放 到 固定 大 小 
227 X 227 后 送 入 CNN 网 络 进行 特征 提取 ,得 到 每 个 目标 候选 区 的 特征 表示 。 该 特征 为 一 
个 4096 维 的 向 量 ,将 每 个 特征 向 量 输入 到 SVM 分 类 器 中 进行 分 类 ,判断 该 目标 候选 区 为 
背景 或 者 目标 以 及 相应 的 目标 类 别 。 对 得 到 的 目标 候选 区 进行 非 极 大 值 抑制 (NMS) 以 及 
边框 回归 ,得 到 更 加 准确 的 目标 定位 。 

R-CNN 使 得 目标 检测 研究 得 到 了 突破 性 的 进展 ,在 PASCAL VOC 将 准确 率 从 
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35. 143831 53.7%. (A R-CNN 也 有 着 一 定 的 局 限 性 。 目 标 候选 区 的 重要 使 得 CNN 
特征 提取 的 计算 中 有 着 很 大 的 元 余 , 这 在 很 大 程度 上 限制 了 检测 速度 。 针 对 这 一 缺点 ,提出 
了 R-CNN 的 升级 版 本 Fast R-CNN。 


15.2.2 Fast R-CNN 


虽然 R-CNN 在 检测 识别 任务 上 突破 了 传统 方法 的 限制 ,但 是 它 仍 然 存 在 各 种 各 样 的 
问题 ,因此 Ross Girshick 再 次 提出 了 Fast R-CNN 模型 ,主要 用 于 解决 R-CNN 的 三 个 问 
题 : 四 整个 模型 分 为 多 个 步 又 ,包括 Selective Search 提取 的 目标 候选 区 ,训练 CNN 特征 提 
取 模 型 ,训练 SVM 分 类 器 ,训练 边框 回归 器 ; @ 测 试 时 间 长 ,由 于 每 张 图片 要 处 理 大 量 目 标 
候选 框 ; @ 训 练 时 所 需 空间 大 ,花费 时 间 多 ,R-CNN 在 训练 时 每 个 候选 区 域 都 要 调整 成 相 
同 大 小 的 图 像 ,并 输入 到 网 络 中 ,这 使 得 处 理 一 张 图 片 所 需 的 空间 大 ,整个 模型 需要 训练 
CNN 模型 SVM 分 类 器 以 及 目标 边框 回归 器 ,所 以 训练 时 间 花 费 很 多 。 

对 比 于 R-CNN, Fast R-CNN 在 目标 候选 区 域 生成 方面 没有 改变 ,同样 用 到 了 SS 策 
We. ANTS Fast R-CNN 提出 了 Regions of Interest(RoIs) 策 略 将 候选 区 域 映射 到 CNN 
模型 的 特征 层 上 ,直接 在 特征 层 上 提取 对 应 区 域 的 深层 特征 ,避免 了 不 断 输入 不 同 区 域 图 像 
的 部 分 。 然 后 将 提取 到 的 特征 直接 用 Softmax 预测 区 域 类 别 , 用 网 络 来 学 习 一 个 边界 框 回 
归 器 。 将 整个 特征 提取 ,分 类 和 边界 回归 都 整理 成 一 个 部 分 ,提高 了 整个 模型 的 效率 。 该 模 
型 可 以 用 图 15. 5 来 表示 。 
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图 15.5 Fast R-CNN 模型 
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表示 类 别 。 lici Serapio quique. 
LC.u.t* 9) = La (psu) Au > 1] + Ly * 9) (15,1) 


La. Cpu) =— log p.) ÆR KKH u 的 对 数 损失 。 而 回归 损失 Li 的 定义 基于 两 组 参 
数 : KH u 的 真实 边框 y= 二 (vw,v, ,vs o ,类 别 w DO WHE = Ct um onm D ,详细 表述 
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如 下 : 
(G= P.J 
i P. (15. 2) 
ic (G, — Py) (15.3) 
h 
ty = toe(F) (15. 4) 
b= toe  $" (15. 5) 
h 


HEP GG, Gi GO A CS ELE I Hp AI ER AG RE SERI > Pa o Py Pu » PO RIRE HE 
域 的 中 心 坐标 和 区 域 的 宽 和 高 。 对 于 边框 回归 层 , 定 义 的 损失 为 : 


Ea 








Lilt") = J) Smooth, Gt — 9) (15. 6) 
i€ (xy ew] 
其 中 ， 
0. 52? lapsi 
Smooth;, (x) = (15.7) 
|Ix|—0.5 其 他 


与 R-CNN 中 的 工 ; 范 数 相 比 ,Fast R-CNN 中 使 用 的 Li 范 数 和 鲁 棒 性 更 强 。 

Fast R-CNN 在 训练 时 首先 用 ImageNet 数据 集 预 训练 整个 VGG 网 络 。 然 后 用 VOC 
目标 检测 数据 集 调整 整个 网 络 ,并 训练 网 络 最 后 部 分 的 分 类 器 和 边界 框 回 归 器 。 在 Fast R- 
CNN 中 ,使 用 SGD 来 进行 训练 ,每 次 选择 2 幅 图 片 ,128 个 候选 区 ,并 将 每 张 图 片 定 为 固定 
尺寸 。 也 就 是 说 ,每 次 训练 只 输入 两 幅 整 幅 图 片 ,但 是 可 以 进行 128 个 Rol 的 训练 ,每 64 个 
Rol 之 间 都 可 以 共享 特征 计算 。 这 种 训练 方式 大 大 提高 了 训练 效率 。 而 且 在 训练 过 程 中 只 
对 数据 做 了 镜像 ,而 没有 采用 其 他 的 方式 来 做 数据 增强 。 

所 以 ,从 主要 框架 中 可 以 看 出 ,Fast R-CNN 是 将 整 幅 图 像 输入 到 网 络 ,在 网 络 正 向 传 
播 训练 过 程 中 提取 候选 区 域 。 而 且 并 不 需要 将 候选 区 的 特征 向 量 保存 起 来 ,将 类 别 判断 和 
位 置 精 调 学 习 统一 起 来 ,并 不 是 像 R-CNN 是 多 个 阶段 训练 。 所 以 不 仅 节 省 时 间 , 而 且 也 不 
需要 过 大 的 磁盘 存储 。 但 是 Fast R-CNN 仍然 用 到 了 候选 区 域 生成 算法 ,需要 识别 的 区 域 
仍然 很 多 ,而 且 这 部 分 算法 暂时 没有 办 法 融入 GPU, 所 以 在 一 定 程度 上 影响 了 整个 算法 的 
效率 。 


15.2.3 Faster R-CNN 


Fast R-CNN 克服 了 R-CNN 提取 卷 积 特征 时 宛 余 操 作 的 缺点 ,将 目标 检测 的 特征 提 
取 , 分 类 和 边框 回归 统一 到 了 一 个 框架 中 。 然 而 ,目标 候选 区 域 提取 步 又 仍然 独立 于 整 
个 深度 神经 网 络 单独 存在 ,Fast R-CNN 和 R-CNN 中 使 用 的 目标 候选 区 提取 方法 SS 耗 时 
相对 较 长 , 且 难 以 融入 GPU 运算 .于 是 目标 候选 区 提取 成 为 限制 检测 速度 的 一 个 新 的 
DEUM 
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为 了 解决 了 这 一 问题 ,Shaoqing Ren 等 人 提出 了 Faster R-CNN 算法 ,该 算法 中 引入 了 
一 个 新 的 概念 一 一 区 域 生 成 网 络 (Region Proposal Networks, RPN) 来 进行 目标 候选 区 的 
提取 。 从 某 种 意义 上 讲 ,Faster R-CNN 可 以 看 作 是 由 生成 目标 候选 区 的 RPN 和 利用 这 些 
候选 区 的 Fast R-CNN 检测 器 组 成 的 ,这 样 整个 目标 候选 区 域 提取 、 深 度 特征 提取 、 目 标识 
别 和 检测 过 程 都 融入 在 一 个 深度 神经 网 络 模型 中 。 这 样 所 有 过 程 都 可 以 在 GPU 中 运行 ， 
从 而 大 大 提高 了 整个 检测 速度 却 不 降低 检测 精度 。 

与 Fast R-CNN fll R-CNN 不 同 的 是 ,Faster R-CNN 模型 只 需要 输入 一 张 图 片 ,以 及 图 
片 中 目标 的 类 别 和 对 应 的 边界 框 类 别 。 随 后 通过 基础 的 CNN 模型 对 图 像 做 特征 提取 ,这 
里 用 的 是 VGG 网 络 ,并 且 只 用 到 了 前 13 层 卷 积 网 络 。 然 后 将 输出 的 特征 用 RPN 做 候选 
区 域 的 预测 ,以 及 用 预测 到 的 候选 区 域 边框 对 特征 图 做 如 同 Fast R-CNN 中 Rol 的 操作 ,并 
达到 目标 的 识别 和 边界 框 回归 。 整 个 过 程 可 以 用 图 15.6 表示 。 其 中 RPN 是 一 个 全 卷 积 神 
经 网 络 (Fully Convolutional Network, FCN) ,其 输入 前 一 层 为 任意 大 小 的 特征 图 ,输出 为 
一 系列 的 矩形 目标 候选 区 。 为 了 生成 候选 区 域 , 一 个 小 型 网 络 在 共享 卷 积 网 络 的 最 后 一 层 
卷 积 层 的 输出 特征 图 上 进行 了 滑 窗 选 择 。 该 网 络 的 输入 为 特征 图 的 一 个 nXn 的 窗口 。 对 
于 每 个 窗口 ,同时 预测 上 个 目标 候选 区 ,这 上 个 候选 区 都 与 这 个 窗口 存在 关联 , 称 为 
anchors。 每 个 anchor 都 有 着 对 应 的 尺度 和 比例 。 卷 积 特征 图 中 的 每 一 个 点 都 是 一 个 
anchor 中 心 ,有 着 个 相对 应 的 anchors。 对 于 一 张 wXh 大 小 的 卷 积 特征 图 ,存在 wo h 
个 anchors。 每 个 窗口 被 映射 为 一 个 低 维 的 向 量 ( 在 VGG-16 网 络 中 为 512 维 )。 该 特征 向 
量 随即 被 传送 到 两 个 子 网 络 中 : 边框 回归 网 络 和 边框 分 类 网 络 。 边 框 分 类 网 络 输出 的 是 每 
个 anchor 属于 目标 或 者 背景 的 概率 ,对 于 每 个 窗口 ,有 2k 个 输出 ,即将 256 维 向 量 映射 为 
2k 维 向 量 ; 而 边框 回归 网 络 输出 的 是 每 个 anchor 的 平移 缩放 的 值 ,对 每 个 窗口 ,有 4 个 输 
出 。 整 个 RPN 如 图 15.7 所 示 。 





分 类 器 


Rol 池 化 


区 域 生成 网 络 






特征 图 











图 15.6 Faster R-CNN 模型 框架 
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图 15.7 Region Proposal Network(RPN) 网 络 模型 


RPN 的 训练 过 程 是 端 到 端 (end-to-end) 的 。 使 用 的 优化 方法 是 反 向 传播 (back- 
propagation) 和 随机 梯度 下 降 (SGD) ,损失 函数 是 分 类 误差 和 回归 误差 的 联合 损失 : 


Lp) (D = x- : XLscspr) d. M + Leg (tis?) 5.8 
cls i reg d 


其 中 i 表示 第 i 个 anchor 点 ,p; —1 表示 第 i 个 anchor 点 为 正 样本 ,上 表示 候选 区 域 边框 
和 真实 目标 边框 之 间 的 偏差 。 在 训练 时 , 正 样本 为 与 任意 的 真实 边框 (ground truth) ff IoU 
大 于 0.7 的 候选 区 ; 负 样 本 为 与 所 有 的 ground truth 的 IoU 小 于 0. 3 的 候选 区 。 而 不 属于 
以 上 两 种 情况 的 目标 候选 区 不 在 训练 中 使 用 。 
通过 RPN 得 到 候选 区 域 后 ,将 得 到 的 区 域 作 用 于 VGG 的 特征 图 ,进行 与 Fast R-CNN 
相似 的 Rol Pooling 操作 ,提取 对 应 区 域 的 特征 ,并 用 这 些 特征 去 做 目标 类 别 和 边界 框 的 预 
测 。 这 部 分 的 损失 函数 与 Fast R-CNN 的 基本 一 样 。 若 整个 模型 去 掉 RPN 部 分 , 剩 下 在 网 
络 中 的 部 分 与 Fast R-CNN 一 样 。 
RPN 和 Faster R-CNN 共享 了 一 个 提取 特征 的 卷 积 神经 网 络 。 为 了 精 调 这 个 网 络 ， 
Faster R-CNN 提出 了 三 种 方法 。 
m 交替 训练 : 先 训练 RPN ,然后 用 RPN 上 提取 的 候选 区 域 训练 Fast R-CNN ,接着 在 
Fast R-CNN 的 参数 基础 上 训练 RPN ,周而复始 ,迭代 训练 。 
m 近似 联合 训练 : 在 每 次 迭代 中 ,前 向 传播 时 将 ROI 视 为 固定 的 ,在 反 向 传播 时 将 
RPN 的 损失 和 Fast R-CNN 的 损失 合并 。 
m 非 近 似 联合 训练 : 在 训练 中 ,考虑 ROI 区 域 变化 的 影响 。 作 者 采用 了 交替 训练 的 方 
法 来 训练 Faster R-CNN 模型 。 
整个 模型 提出 了 RPN 来 生成 候选 区 域 , 将 整个 检测 识别 过 程 完 全 封装 到 一 个 深度 学 
习 模 型 中 ,整个 过 程 可 以 完全 在 GPU 中 运行 ,在 测试 时 提高 了 检测 速度 ,使 得 它 在 效率 上 
完全 打败 了 R-CNN 和 Fast R-CNN。 
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15.2.4 对 比 实验 结果 与 分 析 


这 里 将 展示 本 节 介 绍 的 基于 区 域 建 议和 深度 学 习 的 目标 检测 与 识别 方法 的 实验 结果 。 
并 与 一 些 传统 的 不 使 用 深度 学 习 模 型 的 目标 检测 与 识别 方法 做 对 比 。 这 里 采用 了 
VOC2007 测试 数据 集 来 对 比 各 种 方法 的 结果 ,如 表 15. 1 所 示 。 


表 15.1. VOC2007 测试 数据 检测 结果 (%) 




































































Detectors DPM R-CNN Fast R-CNN Faster R-CNN 
mAP 33.7 66.0 70.0 73.2 
aero 33.2 73.4 77.0 76.5 
bike 60.3 77.0 78.1 79.0 
bird 10.2 63.4 69.3 70.9 
boat 16.1 45.4 59.4 65.5 
bottle 27.3 44.6 38.3 52.1 
bus 54.3 75.1 81.6 83.1 
car 58.2 78.1 78.6 84.7 
cat 23.0 79.8 86.7 86.4 
chair 20.0 40.5 42.8 52.0 
cow 24.1 73.7 78.8 81.9 
table 26.7 62.2 68.9 65.7 
dog 12.7 79.4 84.7 84.8 
horse 58.1 78.1 82.0 84.6 
mbike 48.2 73.1 76.6 717.5 
person 43.2 64.2 69.9 76.7 
plant 12. 0 35.6 31.8 38.8 
sheep 21.1 66.8 70.1 73.6 
sofa 36.1 67.2 74.8 73.9 
train 46.0 70.4 80.4 83.0 
tv 43.5 71.1 70.4 72.6 

















由 表 15. 1 可 以 看 出 ,传统 的 目标 检测 与 识别 方法 在 mAP 指数 上 无 法 和 基于 深度 学 习 
的 方法 相 比较 。R-CNN 在 PASCAL VOC2007 测试 数据 上 将 准确 率 从 33.7% 提 高 到 了 
66.0% ,提高 了 接近 1 倍 ,实现 了 巨大 的 飞跃 ,这 得 益 于 CNN 模型 在 分 类 任务 上 的 巨大 成 
功 。 而 基于 区 域 建议 的 检测 方法 通过 引入 目标 候选 区 域 , 将 目标 检测 与 识别 任务 化 简 为 一 
个 分 类 任务 ,完美 地 利用 了 CNN 的 强大 性 能 。 从 各 类 的 mAP 指数 上 可 以 发 现 DPM 这 种 
传统 方法 没有 任何 优势 。 基 于 区 域 建 议 的 三 种 方法 在 各 类 目标 的 检测 结果 上 都 有 很 大 的 提 
高 。 从 R-CNN Fast R-CNN,Faster R-CNN 这 三 种 方法 的 结果 可 以 看 出 ,经 过 不 断 的 改 
进 , 基 于 区 域 建议 的 方法 精度 越 来 越 高 。 但 是 可 以 看 出 bottle chair, plant 这 几 种 目标 的 检 
测 结果 仍然 不 太 令 人 满意 。 这 三 种 目标 在 数据 中 都 是 比较 小 的 目标 ,而 且 类 内 的 形态 多 种 
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多 样 。 想 要 分 好 这 些 目 标 则 需要 更 好 的 目标 候选 区 域 提取 方法 ,更 好 的 深度 学 习 模 型 ,更 多 
的 训练 数据 。 

在 时 间 消 耗 上 ,DPM 算法 处 理 每 张 图 片 大 概 需 要 2 秒 ,R-CNN 大 概 47 秒 处 理 一 张 图 
片 ,Fast R-CNN 大 概 需要 3 秒 处 理 一 张 图 片 ,Faster R-CNN 每 秒 可 以 处 理 大 概 5 张 图 片 。 
由 于 R-CNN 用 了 SS 算法 ,并 且 识 别 和 边界 回归 是 分 开 处 理 的 ,因此 整个 时 间 复 杂 度 是 最 
高 的 。Fast R-CNN 仍然 由 SS 算法 做 预 处 理 ,但 是 通过 Rol 策略 将 区 域 特征 提取 放 入 网 络 
内 部 ,并 且 直 接 通过 深度 神经 网 络 来 做 识别 和 边界 回归 ,因此 提高 了 算法 的 效率 。Faster 
R-CNN 去 掉 了 SS 预 处 理 过 程 ,用 RPN 网 络 自己 生成 有 用 的 目标 候选 区 域 ,然后 用 Fast R- 
CNN 的 后 续 过 程 来 检测 识别 目标 ,整个 过 程 完全 在 深度 神经 网 络 内 部 进行 ,形成 一 种 端 到 
端的 模型 ,效率 是 最 高 的 。 


15.3 基于 回归 学 习 的 目标 检测 与 识别 


基于 区 域 建议 的 目标 检测 与 识别 方法 由 于 存在 候选 区 域 提取 ,使 得 算法 会 花费 更 多 的 
时 间 ,很 难 做 到 实时 检测 和 识别 ,而 且 检测 结果 也 受到 候选 区 域 提 取 算法 的 影响 。 而 基于 回 
归 的 目标 检测 与 识别 算法 由 于 没有 候选 区 域 提取 步骤 , 且 所 有 识别 和 检测 步骤 都 可 以 融合 
在 一 个 深度 神经 网 络 中 处 理 ,因此 很 容易 做 到 实时 检测 和 识别 。 但 是 ,一 般 基于 相同 基础 深 
度 学 习 模 型 ,比如 VGG 网 络 时 ,基于 区 域 建 议 的 模型 会 有 更 令 人 满意 的 检测 和 识别 结果 ， 
而 基于 回归 的 目标 检测 识别 模型 在 时 间 效 率 上 更 好 。 后 续 内 容 将 详细 介绍 YOLO 和 SSD 


15.3.1 YOLO 


对 于 人 类 来 说 观察 一 张 图 片 ,检测 并 识别 出 图 像 中 的 目标 是 非常 快速 ,准确 的 ,而 且 不 
需要 反复 观察 一 张 图 片 。 因 此 Joseph Redmon 等 人 提出 了 YOLOCYou Only Look Once) 
算法 ,这 个 算法 对 于 基于 区 域 建议 算法 来 说 ,是 一 种 新 的 目标 检测 与 识别 框架 。 他 们 将 目标 
检测 与 识别 当 作 一 种 回归 问题 ,通过 回归 的 方式 来 检测 目标 的 位 置 以 及 识别 目标 的 类 别 。 
而 且 以 回归 的 方式 只 需要 用 单一 的 网 络 对 整 张 图 片 做 一 次 评估 就 可 以 得 到 目标 边界 框 和 类 
别 。 这 个 算法 是 一 个 端 到 端的 模型 ,因此 这 个 算法 可 以 说 只 要 看 图 片 一 次 就 能 检测 和 识别 
目标 。 

YOLO 算法 较 传 统 方法 有 如 下 几 个 优点 : 四 这 个 方法 足够 快 ,整个 模型 的 框架 非常 简 
单 ,在 Titan X GPU 下 能 做 到 每 秒 45 帧 ,快速 版 的 能 做 到 每 秒 150 帧 ,可 以 做 到 视频 的 目 
标 检测 与 识别 。@YOLO 每 次 能 够 直接 检测 和 识别 到 整 张 图 的 所 有 目标 ,每 次 能 够 处 理 整 
张 图 ,这 样 在 识别 目标 时 相当 于 加 入 了 目标 所 在 的 周围 环境 的 信息 。@ YOLO 能 够 学 习 到 
目标 的 一 种 概括 性 的 表示 , 当 YOLO 可 以 检测 和 识别 自然 图 像 中 的 人 时 , 它 同样 可 以 用 来 
检测 艺术 品 中 的 人 物 。 
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YOLO 算法 也 有 如 下 几 个 缺点 : @ 定 位 精度 差 , 该 算法 的 定位 精度 没有 基于 区 域 建议 
的 算法 高 ,这 是 由 于 该 算法 只 是 简单 地 对 图 像 做 回归 导致 的 ; @ 对 一 些小 目标 或 者 目标 之 
间 位 置 很 接近 的 情况 下 检测 效果 不 好 ,这 也 是 因为 该 算法 只 是 对 固定 大 小 .固定 位 置 的 图 像 
块 做 回归 引起 的 。 

整个 YOLO 算法 可 以 分 为 以 下 三 步 : 四 将 整个 图 片 等 分 成 SXS 个 格子 ; @ 将 整 张 图 
片 送 入 深度 神经 网 络 ,预测 每 一 个 格子 是 否 存在 目标 .目标 的 边界 框 、 目 标的 类 别 ; @ 将 预 
测 的 边界 框 做 非 最 大 抑制 (NMS) 筛选 出 最 好 的 边界 框 , 从 而 得 到 最 好 的 结果 。 这 里 用 
YOLO 文献 中 的 示意 图 来 表示 这 个 过 程 , 如 图 15. 8 所 示 。 














输入 划分 为 SxS 的 网 格 最 终 检测 


分 类 概率 图 











图 15.8 YOLO 整体 框架 


训练 时 每 次 运行 整个 模型 需要 用 到 的 数据 包括 图 片 Im 以 及 图 片 中 目标 的 类 别人 和 目 
标 边 界 框 坐 标 (全 ,入 , 谷 , 思 ,其 中 (全 ,为 表 示 真 实 目标 的 中 心 位 置 坐标 ,( 论 , 思 表 示 真 实 目标 
边界 框 的 宽 和 高 。 整 个 系统 在 处 理 检测 识别 任务 时 ,首先 将 整个 图 片 划分 成 SXS 个 格子 ， 
如 图 15.8 中 所 示 。 这 样 划 分 图 像 非常 简单 而 且 能 够 确保 格子 中 可 能 存在 目标 。 文 中 
S 二 7, 这 样 整个 过 程 只 需要 判断 49 个 部 分 是 否 存在 目标 ,并 预测 目标 位 置 。 这 上 比 基 于 区 域 
建议 的 方法 动 加 判断 几 百 上 千 的 区 域 要 简单 快捷 ,直接 提高 了 整个 过 程 的 效率 。 最 后 对 整 
张 图 片 目 标 位 置 类 别 的 预测 可 以 用 一 个 SXSX(Bx5+C) 的 张 量 来 表示 。 其 中 B 表示 图 
像 中 每 个 格子 要 预测 的 目标 边界 框 的 数量 ,文中 B==2, 表 示 一 次 预测 两 个 边界 框 。 这 里 的 
5 表示 目标 边界 框 (x,y,w,h) 和 这 个 格子 对 于 目标 的 管 信和 度 分 数 Conf, 共 5 个 参数 。C 表 
示 所 用 数据 集中 目标 的 类 别 数量 ,如 果 用 的 是 PASCAL VOC 数据 , 则 C==20。 因 此 ,最 终 
预测 一 个 7X7X30 的 张 量 。 文 中 设计 的 目标 置信 和 度 分 数 Conf. 用 来 表示 图 像 中 格子 预测 的 
边界 框 是 否 包含 目标 ,以 及 预测 的 边界 框 是 否 准确 。 定 义 如 下 : 
Conf = P(Class; | Object) + PC(ObjecO » louz? = P(Class;) * lou? — (15.9) 
其 中 P (Class; |Object) 表 示 有 目标 的 情况 下 .目标 属于 第 i 类 的 概率 ,P(Object) 表 示 边界 
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这 个 参数 将 在 测试 阶段 评价 筛选 出 来 的 边框 是 否 有 效 。 

第 二 步 就 是 设计 深度 神经 网 络 来 提取 图 像 特 征 ,并 预测 目标 类 别 和 边界 框 。 文 中 设计 
的 网 络 结构 是 基于 GoogLeNet 改进 的 ,这 是 一 种 基于 卷 积 神经 网 络 (Convolutional Neural 
Network,CNN) 搭 建 的 深度 神经 网 络 。 它 的 结构 可 以 引用 文中 的 图 示 来 表示 ,如 图 15. 9 
所 示 。 
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图 15.9 YOLO 中 所 用 到 的 深度 神经 网 络 结构 示意 图 


整个 网 络 包含 了 24 个 CNN 层 ,2 个 全 连接 层 , 与 GoogleNet 不 同 的 是 : 这 里 在 用 3X3 
卷 积 核 得 到 的 特征 图 后 面 用 一 个 1X1 的 卷 积 操 作 来 减少 特征 图 的 数量 ,例如 ,从 3 X3 X 
1024 一 1X1X512, 这 样 可 以 减少 计算 的 中 间 参 数 , 减 小 模型 的 规模 ,从 而 加 快运 算 速度 。 在 
模型 的 最 后 通过 一 个 全 连接 层 去 预测 各 个 图 像 块 对 应 的 目标 类 别 和 目标 边界 框 ,这 样 每 一 
个 图 像 块 都 用 到 了 这 个 图 片 全 部 的 特征 ,对 于 每 个 目标 来 说 都 考虑 到 了 它 存在 的 周围 环境 
信息 。 

为 了 优化 整个 模型 ,作者 设计 了 如 下 损失 函数 : 
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参数 Me 是 用 来 增强 边界 框 在 损失 计算 中 的 重要 性 ,eu 一 5; 参数 Ms 是 用 来 减弱 非 目标 
区 域 对 目标 区 域 置信 度 计算 的 影响 ,Ma 一 0.5; 199 表示 图 像 中 第 ;个 图 像 块 有 目标 。1 史 
表示 第 i 个 图 像 块 的 第 j 个 预测 框 有 目标 ,反之 为 183%; 式 (15. 10) 的 前 两 行 是 用 来 预测 目 
标的 边界 框 的 ,这 里 用 平方 根 处 理 边界 框 宽 和 高 (w,h) ,是 因为 在 宽 和 高 预测 时 ,预测 结果 
对 大 目标 和 小 目标 的 影响 是 相同 的 ,然而 真实 情况 是 (w,h) 变 化 对 大 目标 的 敏感 性 要 差 于 
小 目标 ,可 能 (tw,h) 变 化 一 点 ,小 目标 的 边框 就 无 法 找到 ,所 以 加 入 了 这 个 开 方 过 程 。 损失 
函数 的 第 三 项 是 用 来 预测 边框 置信 度 分 数 。 第 四 项 是 预测 非 目 标的 置信 度 分 数 。 最 后 一 项 
是 用 来 预测 图 像 中 每 一 个 格子 所 属 目标 的 类 别 。 

整个 深度 学 习 模 型 首先 用 ImageNet 1000 类 的 数据 集 来 预 训练 ,然后 再 用 目标 检测 的 
数据 集 来 微调 整个 网 络 并 训练 最 后 的 预测 器 。 这 里 用 VOC2007 十 VOC2012 数据 集 的 训练 
集 和 验证 集 来 共同 训练 整个 网 络 。 在 训练 时 为 了 表述 更 细致 的 视觉 信息 ,作者 将 深度 网 络 
输入 图 像 大 小 调整 为 224 X224 一 448X448。 训 练 参数 有 : 批量 大 小 为 64, 动 量 项 为 0.9, 衰 
退 参数 为 0.0005 ,整个 数据 训练 135 次 ,第 一 次 学 习 率 从 0. 001 变 到 0.01, 用 0.01 训练 75 
次 ,0.001 训练 30 次 ,0. 0001 训练 最 后 30 次 。 为 了 避免 过 拟 合 ,模型 中 加 了 dropout 策略 ， 
也 做 了 数据 增强 。 

训练 结束 后 文中 用 了 VOC2007 和 VOC2012 的 测试 集 测试 了 算法 性 能 ,结果 展示 于 
15.3. 3 小节。 测试 后 将 得 到 很 多 预测 结果 ,这 些 预测 结果 通过 非 最 大 抑制 (NMS) 来 筛选 其 
中 最 佳 的 结果 。 

上 述 总 结 了 YOLO 算法 的 动机 、 优 缺点 ,详细 介绍 了 整个 模型 框架 ,并 对 模型 进行 了 分 
Jr ,概述 了 整个 模型 的 训练 和 测试 过 程 。 


15.3.2 SSD 


由 于 之 前 主流 的 目标 检测 和 识别 方式 都 是 深度 学 习 模型 结合 区 域 和 高 性 能 分 类 器 共同 
完成 检测 识别 任务 。 虽 然 这 种 方式 能 够 得 到 较 好 的 检测 识别 精度 ,但 是 整个 模型 的 实现 需 
要 做 大 量 的 计算 ,要 求 高 端的 硬件 , 且 无 法 做 到 实时 处 理 。 因 此 Wei Liu 等 人 也 提出 了 一 种 
基于 回归 的 目标 检测 与 识别 方法 SSD(Single Shot MultiBox Detector) ,与 YOLO 类 似 ， 
SSD 同样 是 一 种 端 到 端的 模型 ,所 有 检测 和 识别 过 程 都 可 以 由 同一 个 网 络 解 决 。 与 YOLO 
不 同 的 是 : SSD 在 YOLO 的 基础 上 加 入 了 Faster R-CNN 中 anchor 机 制 ,这 样 相当 于 在 回 
归 的 基础 上 结合 了 一 部 分 区 域 建议 的 功能 ,对 比 两 者 所 用 特征 ,SSD 并 没有 用 这 个 图 像 的 
全 局 特征 ,只 用 了 每 个 目标 周围 的 深层 特征 去 检测 识别 目标 ,而 且 在 深度 学 习 模型 的 特征 提 
取 上 ,SSD 从 深度 神经 网 络 不 同 层 的 特征 图 上 提取 特征 ,然后 分 别 用 这 些 特征 回归 预测 目 
标 , 这 样 能 够 自然 地 加 入 多 尺度 信息 ,能够 对 一 个 目标 做 更 多 的 判断 ,从 而 在 不 影响 速度 的 
前 提 下 提高 精度 。 

SSD 算法 的 优点 : 四 是 一 个 single-shot 目标 检测 识别 方法 ,与 YOLO 类 似 ,只 需要 观 
测 图 片 一 次 就 可 以 做 到 多 目标 的 检测 识别 ,速度 比 YOLO HEAR; OH YOLO 的 基础 上 结合 
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T Faster R-CNN 中 的 anchor 机 制 ,而 且 用 到 了 不 同 尺 度 的 深度 网 络 特征 图 预测 每 个 位 置 
上 的 目标 ,保证 了 在 检测 和 识别 的 精度 上 可 以 和 基于 区 域 建议 的 方法 相 比 ; @SSD 算法 对 
低 分 辨 率 的 图 像 同样 能 达到 较 高 的 检测 识别 精度 。 

SSD 仍然 没有 解决 目标 的 尺寸 对 检测 结果 的 影响 ,对 于 一 些小 的 目标 做 边界 框 的 预测 
时 没有 一 些 基 于 区 域 建议 的 方法 效果 好 ,但 SSD 的 优势 暂时 仍然 是 其 他 算法 所 不 能 比 的 。 

SSD 算法 的 主要 过 程 可 以 分 为 如 下 几 个 部 分 : 通过 深度 神经 网 络 提取 整个 输入 图 片 
的 深度 特征 ; @@ 针 对 不 同 尺度 的 深度 特征 图 设计 不 同 大 小 的 特征 抓 取 盒 ( 将 这 些 盒 与 真实 
目标 边框 相 匹配 用 来 训练 ); 加 通过 提取 这 些 特征 抓 取 盒 对 应 的 深度 特征 图 的 特征 来 预测 
盒 中 目标 类 别 以 及 目标 真实 边框 ; @ 最 终 通过 NMS 来 筛选 最 佳 预测 结果 。 

SSD 模型 在 训练 时 只 需要 图 像 ,图像 中 目标 类 别 和 位 置 的 真实 标记 ,并 不 需要 其 他 信 
息 , 在 测试 时 也 只 需要 输入 一 张 没有 经 过 处 理 的 图 片 。 整 个 模型 可 以 用 如 图 15. 10 
所 示 。 
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图 15.10 ”SSD 深度 学 习 模 型 


可 以 看 出 整个 模型 的 输入 是 整 张 图 片 ,然后 经 过 一 个 基础 的 深度 学 习 模 型 VGG16 网 
络 来 对 整 张 图 像 提 取 特 征 , 在 VGG16 网 络 的 后 面 又 如 入 了 新 的 CNN 层 , 由 于 每 个 CNN 层 
的 尺度 是 不 一 样 的 ,这 方便 做 多 尺度 特征 的 提取 。 后 续 用 来 检测 识别 的 特征 图 包含 conv5_3、 
conv7,conv8 2,conv9 2,convlO 2,convll 2。 它 们 由 如 下 方式 产生 : conv8_2 一 conv9_2， 
首先 用 3X3X256 一 s2 的 卷 积 核 来 处 理 conv8_2 层 , 其 中 s2 表示 卷 积 步 长 是 2, 这 里 的 卷 积 
过 程 用 的 是 atrous 算法 ,然后 用 1X1X128 的 卷 积 核 再 做 一 次 卷 积 计算 ,特征 图 数量 从 256 
变 为 128 ,最 终 得 到 用 于 检测 识别 的 特征 图 。 接 下 来 就 是 做 多 尺度 特征 图 上 的 局 部 特征 提 
取 , 并 将 得 到 的 特征 用 于 预测 结果 。 对 比 于 YOLO 对 原始 图 像 划分 的 栅 格 ,SSD 依次 对 特 
征 图 上 的 所 有 点 做 处 理 , 比 如 特征 图 大 小 为 8X8 和 4X4, 然 后 以 每 个 特征 图 上 对 应 坐标 的 
特征 向 量 预测 目标 。 由 于 特征 图 是 多 尺度 的 ,目标 的 大 小 也 不 是 固定 的 ,将 使 得 这 种 简单 地 
按照 坐标 点 的 特征 提取 方法 无 法 很 好 地 抓 取 目 标 。 因 此 ,Wei Liu 等 人 针对 不 同 尺度 的 特 
征 图 .不同 尺 二 的 目标 ,对 每 个 特征 图 上 的 点 重新 设计 了 多 重 的 特征 抓 取 盒 。 对 每 个 特征 抓 
取 盒 可 以 用 如 下 方式 定义 ,首先 对 不 同 尺度 的 特征 图 设计 不 同 的 尺度 参数 ,假定 有 m 个 特 
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征 图 , 则 尺度 参数 为 : 


si sn + (SE). D. RE [l,m] (15.11) 








m—1 
其 中 sw =0. 2 为 尺度 参数 最 小 值 Sue m0. 9 为 最 大 尺度 参数 。 随 后 针对 不 同 目标 大 小 , 目 
标 长 宽 比 设计 特征 抓 取 盒 ,先是 5 种 不 同 长 宽 比 参数 w € [1.2.3.5 5] ,根据 这 组 参数 可 


以 计算 出 特征 抓 取 盒 的 宽 和 高 , 盒 宽 为 wi= a, BAH hi s/ a, ,对 于 长 宽 比 为 1 的 
盒 , 增 加 一 组 尺度 参数 = sisisi , 则 对 于 每 一 个 特征 图 坐标 点 ,可 以 得 到 6 种 不 同 的 特征 
抓 取 盒 。 当 然 这 些 特 征 抓 取 盒 并 不 是 每 一 个 都 能 对 应 一 个 目标 ,在 训练 阶段 还 需要 筛选 出 
这 些 盒 里 有 效 的 特征 抓 取 盒 当 作 正 样本 训练 。 这 里 用 到 了 best jaccard overlap 来 做 特征 抓 
取 盒 与 真实 目标 位 置 的 匹配 。 整 个 盒 操作 如 图 15. 11 所 示 。 
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(a) 带 有 特征 抓 取 盒 的 图 像 (b)8X8 的 特征 图 (c)4X4 的 特征 图 














图 15.11 特征 盒 设 计 


接 下 来 根据 每 个 特征 图 坐标 点 上 设计 好 的 特征 抓 取 盒 来 提取 特征 ,并 将 这 些 特征 用 来 
预测 目标 的 类 别 和 边界 框 。 这 里 用 到 了 3X3 的 卷 积 核 去 提取 每 个 特征 抓 取 盒 中 的 特征 ,每 
种 特征 图 用 到 的 卷 积 核 为 3X3X6X(class 十 4) ,6 为 每 个 特征 图 坐标 点 上 特征 抓 取 盒 的 数 
量 , 若 用 VOC 数据 则 class 王 20,4 为 预测 的 目标 边界 框 与 真实 目标 边界 框 之 间 的 偏差 。 若 
一 个 特征 图 的 尺寸 为 mXn, 每 个 坐标 上 有 6 个 盒 , 则 最 终 产 生 mXnX6X(class 十 4) 的 输出 
结果 。 

整个 模型 的 损失 函数 为 : 


L(z,c,l,g) = N e (Leon (tse) +a * Ly (rslsg)) (15. 12) 


其 中 r 用 来 判断 设计 的 特征 抓 取 盒 是 否 有 对 应 的 目标 ,zx$ = (1.0) GI d PAA p 
类 物体 的 第 j 个 目标 的 边界 框 相 匹 配 ,匹配 为 1, 反 之 为 0。 E» 二 1 表示 对 于 第 7 个 目 


标 边界 框 至 少 有 一 个 盒 与 之 匹配 。 式 中 N 表示 匹配 盒 的 数量 。 式 (15. 12) 中 第 一 部 分 是 用 
来 衡量 识别 性 能 的 ,主要 就 是 一 个 多 类 的 Softmax 损失 函数 ,细节 如 下 : 
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N 
Leon (X10) =— >) xh log(@) — 2)log(®) (15.13) 
i€ neg 


i€ pos 


其 中 名 = EXPO 第 二 部 分 是 用 来 衡量 边界 框 预测 性 能 的 ,用 到 的 损失 函数 与 Fast 


,€xb GP) 
R-CNN 相似 ,从 预测 的 目标 边框 的 偏差 到 目标 边框 的 计算 方式 与 R-CNN 用 到 的 方法 相 
似 , 细 节 如 下 : 


N 
LG) = >) 2) ah + Smooth G7 — £7) (15.14) 


i€ pos mE {cr cy woh) 


其 中 多 表示 第 j 个 目标 的 真实 目标 边框 与 特征 抓 取 盒 的 边框 之 间 的 偏差 ,mE€ (ox cy we» 
h} ,crscy) 表 示 边 框 中心 点 坐标 ,(w,h) 表 示 边 框 的 宽 和 高 。 
_ (gr —dF) 


ee = (15.15) 
qe 

ép = Grm (15.16) 

aw — e 

= log) (15.17) 

^j gh 

&- 1og( 24) (15. 18) 


模型 在 训练 时 , 先 用 预 训练 好 的 VGG 模型 ,然后 用 VOC2007 fil VOC2012 数据 集中 所 
有 的 训练 和 验证 数据 作为 目标 检测 与 识别 模型 的 训练 数据 。 训 练 过 程 中 利用 SGD 策略 优 
化 目标 函数 ,初始 学 习 率 为 0.001, 动 量 项 为 0.9, 权 重 惩罚 项 为 0.0005 ,一 次 处 理 的 图 像 批 
量 为 32。 

训练 结束 后 ,用 测试 数据 来 检验 算法 性 能 ,结果 展示 于 15. 3. 3 节 , 在 得 到 大 量 的 预测 结 
果 后 ,通过 NMS 策略 筛选 结果 ,得 到 最 佳 的 检测 结果 。 


15.3.3 ”对比 实验 结果 与 分 析 


这 里 将 基于 回归 的 目标 检测 与 识别 算法 和 基于 区 域 建议 的 检测 识别 算法 做 比较 。 整 体 
来 说 在 精度 方面 基于 回归 的 方法 仍 有 待 提高 ,但 是 在 算法 效率 方面 ,基于 回归 的 方法 有 着 较 
大 的 优势 。 通 过 对 VOC2012 数据 测试 来 对 比 各 种 算法 。 从 表 15. 2 可 以 观察 出 ,单纯 的 回 
归 式 检测 算法 YOLO 在 精度 上 无 法 与 基于 区 域 建议 的 方法 比较 。 但 是 SSD 在 回归 模型 的 
基础 上 ,通过 加 入 一 定 候选 区 域 筛选 方法 ,结合 了 多 尺度 特征 使 得 它 达 到 了 与 基于 区 域 建议 
的 算法 同 级 别 的 精度 。 但 是 这 些 算法 仍然 对 一 些小 目标 非常 敏感 ,在 比如 bottle 和 chair 等 
目标 的 检测 上 ,精度 仍然 不 能 令 人 满意 。 

从 算法 效率 角度 来 评价 回归 式 检测 算法 ,通过 实验 可 以 得 出 ,YOLO 可 以 做 到 每 秒 处 
理 45 张 图 片 ,SSD 可 以 做 到 每 秒 处 理 58 张 图 。 远 远 超越 了 基于 区 域 建 议 的 目标 检测 算法 。 
使 得 现 有 的 目标 检测 算法 可 以 做 到 实时 检测 。 这 是 整个 目标 检测 领域 的 又 一 突破 性 进展 。 
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表 15.2. VOC2012 测试 数据 检测 结果 (%) 




































































Detectors R-CNN Fast R-CNN Faster R-CNN YOLO SSD 
mAP 62.4 68.4 70.4 57.9 72.4 
aero 79.6 82.3 84.9 77.0 85.6 
bike 72.7 78.4 79.8 67.2 80.1 
bird 61.9 70.8 74.3 57.7 70.5 
boat 41.2 52.3 53.9 38.3 57.6 
bottle 41.9 38.7 49.8 22.7 46.2 
bus 65.9 71.8 71.5 68.3 79.4 
car 66.4 71.6 75.9 55.9 76.1 
cat 84.6 89.3 88.5 81.4 89.2 
chair 38.5 44.2 45.6 36.2 53.0 
cow 67.2 73.0 45.6 60.8 77.0 
table 46.7 55.0 55.3 48.5 60.8 
dog 82.0 87.5 86.9 77.2 87.0 
horse 74.8 80.5 81.7 72.3 83.1 
mbike 76.0 80.8 80.9 71.3 82.3 
person 65.2 72.0 79.6 63.5 79.4 
plant 35.6 35.1 40.1 28.9 45.9 
sheep 65.4 68.3 72.6 52.2 75.9 
sofa 54.2 65.7 60.9 54.8 69.5 
train 67.4 80.4 81.2 73.9 81.9 
tv 60.3 64.2 61.5 50.8 67.5 

















15.4 基于 学 习 搜索 的 目标 检测 与 识别 


前 文 讲 述 的 主流 的 目标 检测 与 识别 算法 ,不 论 是 基于 区 域 建 议 或 者 是 基于 回归 的 方法 ， 
都 是 直接 对 图 像 或 者 图 像 的 深度 特征 图 划 定 区 域 , 然 后 针对 各 个 区 域 得 到 检测 识别 结果 。 
而 现 如 今 也 存在 一 些 其 他 方式 来 处 理 目标 检测 与 识别 任务 的 方法 。 例 如 说 ,Juan C. 
Caicedo 等 人 和 Miriam Bellver Bueno 等 人 提出 用 深度 强化 学 习 方式 在 图 像 中 搜索 目标 并 
识别 搜索 到 的 目标 ,而 Donggeun Yoo 等 人 提出 用 视觉 注意 结合 深度 学 习 的 方式 来 搜索 识 
别 图 像 中 的 目标 。 后 续 将 详细 介绍 Juan C. Caicedo 和 Donggeun Yoo 的 两 种 搜索 方式 。 


15.4.1 基于 深度 学 习 的 主动 目标 定位 


主流 的 基于 深度 学 习 的 目标 检测 与 识别 算法 是 通过 判断 一 些 候选 区 域 来 达到 检测 和 识 
别 目标 的 目的 的 。 而 作者 认为 可 以 将 目标 定位 这 一 过 程 看 作 一 个 通过 一 些 动作 不 断 调整 边 
框 从 而 达到 搜索 目标 的 任务 ,也 可 以 看 作 一 个 动态 视觉 搜索 任务 。 作 者 通过 深度 强化 学 习 
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的 方式 来 预测 每 一 次 边框 变动 的 动作 ,再 根据 执行 动作 的 结果 来 判断 目标 是 否 找到 。 
这 种 主动 搜索 的 方法 与 大 多 数 方法 都 不 同 ,与 滑 窗 搜索 的 检测 识别 方法 对 比 ,这 种 方法 
对 不 同 目标 ,不 同 场景 中 有 着 不 同 的 搜索 步 长 。 与 区 域 建议 的 检测 方式 相 比 ,这 种 方法 是 通 
过 深度 强化 学 习 的 方式 来 搜索 最 可 能 的 目标 候选 区 域 ,而 不 是 通过 一 些 简单 的 , 非 学 习 的 方 
式 来 枚 举目 标 候选 区 域 。 在 目标 边界 回归 上 ,这 种 方法 不 会 通过 单 次 的 、 固 定 的 方式 去 预测 
目标 。 
就 目前 来 说 ,这 种 方法 还 无 法 超越 基于 区 域 建议 的 目标 检测 识别 方法 ,主要 有 如 下 
缺陷 : 
n 由 于 要 在 图 像 上 主动 搜索 目标 ,每 找 一 个 目标 就 需要 多 次 搜索 ,因此 在 效率 上 无 法 
超越 所 有 现 有 的 目标 检测 识别 方法 。 
n 在 搜索 过 程 中 容易 出 现 定位 到 目标 但 lou 指数 不 满足 要 求 的 情况 ,这 使 得 这 种 方法 
在 精度 上 无 法 与 主流 目标 检测 与 识别 方法 相 比 较 。 
m 算法 对 目标 大 小 比较 敏感 。 
s 当 同一 场景 中 有 多 个 同类 目标 或 者 目标 之 间 有 遮挡 时 ,也 对 检测 结果 有 较 大 影响 。 
整个 模型 首先 通过 深度 神经 网 络 对 图 像 提取 特征 ,将 这 个 特征 与 前 儿 次 预测 的 动作 向 
量 级 联 起 来 组 成 新 的 特征 向 量 , 然 后 将 这 个 组 合 特征 向 量 送 入 深度 Q 学 习 网 络 来 预测 图 像 
下 一 步 的 移动 方式 ,通过 奖励 机 制 来 判断 移动 是 否 有 效 。 当 模型 预测 动作 停止 后 对 提取 的 
图 像 块 做 目标 类 别 的 识别 。 整 个 模型 可 以 用 图 15. 12 来 表示 。 


历史 动作 








>< >< 
输入 层 预 训练 CNN 深度 Q 网 络 








图 15.12 基于 深度 Q 学 习 的 目标 检测 识别 模型 


整个 模型 输入 为 固定 的 224X224 的 图 片 ,将 这 个 图 片 送 入 有 5 个 卷 积 层 和 1 个 全 连接 
层 的 深度 特征 提取 网 络 ,这 样 就 得 到 一 个 4096 维 的 特征 向 量 ,这 个 特征 向 量 中 包含 了 图 像 
的 全 局 信息 。 作 为 一 个 序列 的 动作 预测 过 程 ,这 里 还 结合 了 当前 状态 之 前 的 动作 集合 ,这 些 
动作 集合 组 成 的 向 量 与 图 像 的 特征 向 量 组 成 了 当前 区 域 的 状态 描述 ,(o,h) 其 中 。o 表示 图 像 
的 特征 ,h 表示 历史 动作 序列 , 共 10 组 历史 动作 ,状态 向 量 维度 为 4096 十 90。 为 了 表示 搜索 








(pj 条 5 章 ， 基 于 深度 神经 网 络 的 日 标 检测 与 识 so 


过 程 , 作 者 定义 了 9 种 动作 ,包括 左右 平移 .上 下 平移 尺度 放大 或 缩小 、 缩 短 高 或 者 缩短 宽 、 
最 后 是 动作 停止 ,如 图 15. 13 所 示 。 
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图 15.13 搜索 中 的 9 种 动作 


得 到 状态 向 量 后 ,将 状态 向 量 送 入 深度 Q 网 络 来 预测 下 一 步 的 动作 向 量 。 每 次 变动 的 
幅度 由 式 (15. 19) 来 表示 : 
a = a° (rg —m)) 
(15. 19) 
a =a». (y — y) 
其 中 a 是 水 平方 向 上 的 变化 参数 ,ww 是 垂直 方向 上 的 变化 参数 ,a 是 限制 参数 ,这 里 为 0. 2。 
结合 预测 到 的 下 一 次 的 动作 以 及 动作 的 变化 幅度 在 输入 图 像 上 截取 下 一 次 用 到 的 输入 
图 像 。 
Juan C. Caicedo 等 人 设计 了 奖励 函数 来 评价 每 一 次 动作 的 有 效 性 。 奖 励 函 数 可 以 解释 
为 当 根据 一 个 动作 从 状态 s 变动 到 s', 通 过 两 个 状态 所 在 区 域 与 真实 目标 区 域 之 间 的 TOU 
指数 来 判断 动作 有 效 性 , 当 有 效 时 给 予 奖励 ,反之 惩罚 。 具 体 可 以 用 式 (15. 20) 来 表示 : 
R,(s,s’) = sign(lou(b’.g) — Iou(b.g)) (15. 20) 
g 为 真实 目标 边框 ,2 为 当前 状态 区 域 边框 ,为 执行 动作 之 后 的 下 一 状态 的 区 域 边框 。 当 
预测 到 终止 状态 时 ,将 用 另 一 种 奖励 函数 : 
+y lou(5^.g) >rt 
Ru (ses) = (15. 21) 
一 7 其 他 
这 里 rz 一 0.6,7 一 3。 可 以 预计 : 当 模型 一 直 向 着 目标 的 位 置 去 移动 时 ,奖励 分 数 是 不 断 累 积 
的 ,只 要 方向 正确 ,分 数 会 越 来 越 大 。 用 最 后 累加 的 奖励 分 数 来 评价 整个 搜索 过 程 的 动作 序 
列 。 最 终 动 作 选 择 的 时 候 可 以 用 式 (15. 22) 来 选取 具有 最 大 奖励 分 数 的 动作 序列 : 
QG.a) =r+7* max.Q(s’.a’) (15.22) 
其 中 Q(s,a) 表 示 状 态 ; 情况 下 ,执行 动作 a 后 所 能 得 到 的 最 大 奖励 分 数 ,~ 表示 当前 动作 的 
奖励 分 数 ,maxsQ(s a ) 表 示 执 行动 作 a 后 所 能 达到 的 最 大 奖励 分 数 。 根 据 这 些 动作 序列 
就 可 以 找到 对 应 的 目标 。 但 是 这 种 动态 搜索 的 效果 仍然 不 能 和 基于 区 域 建议 的 深度 学 习 相 
比 ,但 是 这 种 方法 不 需要 产生 大 量 的 目标 候选 区 域 ,不 需要 做 大 量 的 重复 计算 ,在 这 些 方面 
这 种 方法 有 一 定 的 优势 。 然 而 随 着 Faster R-CNN 等 高 效 的 基于 区 域 建议 的 方法 ,以 及 
SSD 等 回归 模式 的 目标 检测 方法 的 相继 出 现 ,这 种 方法 暂时 还 没有 什么 太 大 的 优势 ,但 是 
这 种 动态 搜索 的 目标 检测 与 识别 方法 仍然 是 一 种 比较 有 效 的 方式 , 仍 有 很 大 的 提升 空间 。 
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15.4.2  AttentionNet 


对 比 于 Juan C. Caicedo 等 人 通过 深度 强化 学 习 的 方式 来 搜索 目标 ,Donggeun Yoo 等 
人 设计 了 一 个 直接 基于 CNN 的 AttentionNet 模型 来 预测 目标 窗 的 行动 过 程 ,这 里 将 动作 
预测 当 作 一 个 分 类 任务 来 处 理 , 没 有 用 到 深度 强化 学 习 的 方式 。 这 样 节省 了 深度 Q 学 习 网 
络 , 相 当 于 在 相同 基本 深度 学 习 模型 下 , AttentionNet 模型 规模 会 小 一 些 , 而 且 也 不 需要 前 
期 的 动作 序列 作为 附加 特征 来 判断 将 要 移动 的 动作 。 

AttentionNet 模型 可 以 概述 为 : 先 取 一 个 足够 大 能 包含 整个 目标 的 框 ,提取 框 内 图 像 ， 
将 图 像 送 入 深度 神经 网 络 提取 特征 ,用 这 组 特征 来 预测 框 的 移动 动作 ,判断 框 是 否 有 目标 ， 
没有 目标 将 判断 这 个 框 为 负 样本 ,有 目标 若 满足 条 件 则 表示 检测 完成 , 若 没 有 满足 条 件 则 根 
据 预 测 动作 提取 新 的 图 像 作为 下 一 次 检测 的 输入 ,不 断 重复 这 个 过 程 直到 检测 结束 。 整 个 
模型 可 以 用 图 15. 14 来 表示 。 
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图 15.14 AttentionNet 模型 


在 训练 时 先 要 找到 包含 目标 的 区 域 作 为 初始 视觉 注意 点 ,这 里 作者 在 以 真实 目标 边框 
为 中 心 缩小 到 原来 的 去 的 边框 和 扩大 6 倍 的 边框 区 域 之 间 随 机 选取 一 定数 量 的 边框 作为 训 


练 初始 正 样 本 边框 。 选 取 一 些 与 真实 目标 边框 不 重 和 到 的 边框 作为 负 样 本 。 为 了 保证 正 样本 
的 边框 中 包含 目标 , 先 用 边框 内 的 图 像 预测 边框 下 一 步 的 移动 动作 , 若 动作 为 右 下 移 兴 和 左 
上 移 玉 , 则 说 明 框 内 包含 完整 的 目标 ,将 这 样 的 边框 称 为 初始 视觉 注意 点 。 

选 好 目标 框 后 抓 取 框 内 图 像 ,并 将 图 像 大 小 调整 成 固定 的 224X224 大 小 。 然 后 将 图 像 
送 入 基本 深度 神经 网 络 模 型 做 特征 提取 ,在 网 络 的 最 后 并 没有 用 全 连接 层 来 做 预测 ,而 是 通 
过 不 同 大 小 的 卷 积 核 用 卷 积 操作 来 得 到 最 后 的 动作 向 量 。 不 同 于 上 一 小 节 方法 的 目标 框 动 
作 , 这 里 设计 的 动作 只 针对 边界 框 的 左上 角 点 和 右 下 角 点 的 移动 。 左 上 角 点 的 动作 包含 右 
BFR) AFEN BEHR ,移动 终止 。 右 下 角 点 的 动作 包含 左 移 一 、 上 移 ^、 左 上 
BN HA ox 、 移 动 终止 . 。 由 于 有 两 个 动作 基点 ,因此 在 网 络 最 后 将 输出 两 组 动作 预测 
结果 ,一 组 表示 左上 角 点 ,一 组 表示 右 下 角 点 。 整 个 模型 的 损失 函数 可 以 定义 为 : 
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1 
l= 2° Zamax(JTL sfr. 十 wet Lsoftmax (Yer + tar) 


S.t. Lum (Yst) =— y, + log > e* (15. 23) 

其 中 y Mile 为 5 维 的 动作 向 量 ,y 表示 预测 的 动作 向 量 ,t 为 真实 动作 的 标签 。 若 做 多 类 的 
检测 时 ,这 个 损失 函数 将 定义 为 : 

1 一 和 .lu 十 





Lė * (lr + le) 


S. te Las = Lots (Yes stas) 


N 
ln = Mace) * loim (YTLe s Eri) 


€ 
N 

lpr = 2j l(cstas) * Lsotmax (Yere » tpr ) (15. 24) 
c=1 


Lame (94D) =— yz log > e 


当 得 到 网 络 预测 的 一 组 动作 后 , 先 判断 是 否 满足 终止 条 件 。 若 左上 角 点 和 右 下 角 点 预测 
的 动作 都 为 X 则 表示 这 个 区 域 是 没有 目标 的 ,网 络 将 不 再 对 这 个 区 域 做 多 余 的 判断 ,并 检测 其 
他 边框 。 当 两 组 预测 动作 都 为 .时 ,表示 已 找到 满足 条 件 的 目标 区 域 ,并 且 不 会 再 做 边框 的 移 
动 了 。 其 他 情况 下 则 按照 对 应 动作 来 移动 边框 ,将 边框 内 的 图 片 取出 作为 下 一 次 模型 的 输入 。 

当做 多 类 的 目标 检测 与 识别 时 ,整个 深度 网 络 模 型 每 次 对 一 个 边界 框 做 多 类 的 移动 动 
作 预 测 , 并 预测 边框 内 目标 类 别 。 这 里 不 需要 预测 无 目标 X 的 情况 ,将 这 种 情况 放 在 类 别 预 
测 步骤 中 ,将 其 定 为 背景 类 。 这 样 当 检测 到 一 个 目标 的 同时 预测 了 目标 的 类 别 。 剩 下 的 步 
又 与 单 类 目标 检测 相同 ,整个 模型 可 以 用 图 15. 15 来 表示 。 对 于 基于 区 域 建议 的 目标 检测 
与 识别 方法 (R-CNN 等 ) 是 用 每 一 个 候选 区 域 中 目标 的 类 别 概率 作为 检测 评分 。 而 在 
AttentionNet 中 ,作者 通过 没有 经 过 Softmax 的 预测 的 动作 向 量 值 来 计算 每 一 个 边界 框 的 
检测 分 数 。 可 以 用 式 (15. 25) 来 表示 。 































































































C EE 
e| [<0] €; 
oa RR ca 排斥 HM 
基 网 络 | res II 2 nig PR dwa ft 
el} (SIN Its ille] [n] = o 
S/N Ha [elle] TLBR Lx 3 /Ao 调 
tilt] [elle] TLBR ClassN V. 。 (m) ae 一 一 整 
e]|e] TLBR Class3 Z ` R 
TLBR Class2 ES" a i 1 
Class 1 S 
t 动作 层 1 








图 15.15 多 类 目标 检测 的 AttentionNet 模型 
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$= ich + ste) 


a S = yn — mnt yn + yi + yr) 
^ [she = Yir — (Yir + Yor + Yir + Yi 
在 做 多 类 检测 时 , 则 不 能 只 用 动作 向 量 来 评价 检测 结果 ,还 需要 将 对 类 别 的 预测 结果 加 
入 评价 参数 中 。 可 以 用 式 (15. 26) 来 表示 : 
sh = (1—22)sh, HA (Csh + Shr) 
S.t Sd. = Y^ — Jua 
sh. = yn — Cyne tyne t+ yhe + yas) 
{ee Yir — CybRe + Yard + Yale? + yöre) 
AttentionNet 的 检测 结果 虽然 高 于 Juan C. Caicedo 的 方法 ,但 是 相 较 于 一 些 基于 建议 
区 域 的 检测 算法 或 者 回归 的 方法 来 说 检测 精度 仍 有 待 提高 。 


15.4.3 ”对比 实 验 结果 与 分 析 


这 里 将 基于 搜索 的 目标 检测 与 识别 算法 (Q-learning,AttentionNet) 和 其 他 检测 识别 算 
法 做 了 比较 。 整 体 来 说 ,在 精度 方面 基于 搜索 的 方法 并 不 占有 优势 ,但 是 基于 搜索 的 方法 仍然 
是 一 种 有 效 的 目标 检测 识别 算法 。 通 过 对 VOC2007 数据 测试 来 对 比 各 种 算法 ( 见 表 5. 3)。 


表 15.3 VOC2007 测试 数据 检测 结果 (%) 


(15. 25) 





(15. 26) 










































































Detectors | DPM R-CNN | Fast R-CNN | Faster R-CNN SSD Q-learning | AttentionNet 
mAP 33.7 66.0 70.0 73.2 68.0 46.1 70.7 
aero 33.2 73.4 77.0 76.5 73.4 55.5 79.1 
bike 60.3 77.0 78.1 79.0 77.5 61.9 77.6 
bird 10.2 63.4 69.3 70.9 64.1 38.4 70.2 
boat 16.1 45.4 59.4 65.5 59.0 36.5 58.0 
bottle 27.3 44.6 38.3 52.1 38.9 21.4 60.0 
bus 54.3 75.1 81.6 83.1 75.2 56.5 75.8 
car 58.2 78.1 78.6 84.7 80.8 58.8 85.5 
cat 23.0 79.8 86.7 86.4 78.5 55.9 75.9 
chair 20.0 40.5 42.8 52.0 46.0 21.4 47.6 
cow 24.1 73.7 78.8 81.9 67.8 40.4 79.9 
table 26.7 62.2 68.9 65.7 69.2 46.3 61.6 
dog 12.7 79.4 84.7 84.8 76.6 54.2 76.9 
horse 58.1 78.1 82.0 84.6 82.1 56.9 78.6 
mbike 48.2 73.1 76.6 17.5 77.0 55.9 76.0 
person 43.2 64.2 69.9 76.7 72.5 45.7 80.1 
plant 12.0 35.6 31.8 38.8 41.2 21.1 47.0 
sheep 21.1 66.8 70.1 73.6 64.2 47.1 73.9 
sofa 36.1 67.2 74.8 73.9 69.1 41.5 64.3 
train 46.0 70.4 80.4 83.0 78.0 54.7 74.1 
tv 43.5 21.* 70.4 72.6 68.5 51.4 72.5 
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从 表 15. 3 中 可 以 看 出 ,基于 Q-learning 的 方法 在 精度 方面 无 法 令 人 满意 , 基于 
AttentionNet 的 方法 在 精度 方面 已 经 接近 其 他 优秀 方法 ,但 这 些 方法 仍然 对 目标 尺寸 非常 
敏感 , 当 目标 尺寸 较 小 或 者 形态 变化 多 种 多 样 时 效果 不 太 理想 。 
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大 数据 深度 学 习 使 得 人 工 智能 在 诸多 领域 获得 了 突破 性 的 进展 
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16.1 深度 学 习 发 展 历史 图 


深度 学 习 是 人 工 智能 领域 最 能 体现 智能 的 一 个 分 支 , 它 也 是 机 器 学 习 领 域 中 的 核心 话 
题 , 研 究 深度 学 习 的 发 展 脉络 (从 1958 年 的 感知 机 神经 网 络 、 到 20 世纪 70 年 代 人 工 智能 的 
寒冬 ,到 1986 年 反 向 传播 算法 (深度 学 习 的 关键 性 基础 ) ,再 到 2006 年 的 深度 置信 网 络 ) , 需 
要 明白 在 大 数据 时 代 的 背景 下 ,硬件 的 发 展 带 来 计算 能 力 的 大 幅度 提升 ,促使 “复杂 结构 ”下 
的 深度 学 习 训 练 变 得 更 为 有 效 ,另外 数据 的 大 幅度 增加 降低 了 过 拟 合 风险 ,同时 深层 的 表达 
方式 也 弱化 了 对 数据 先 验 知识 的 依赖 性 。 下 面 我 们 将 从 以 下 两 个 方面 来 展开 对 于 深度 学 习 
脉络 的 介绍 , 即 16.1.1 和 16.1.2 节 ; 并 在 16.1.3 节 给 出 近 十 余年 出 现 的 各 种 深度 神经 网 
络 名 词 的 关系 谱 图 。 


16.1.1 从 机 器 学 习 、 稀 中 表示 学 习 到 深度 学 习 


对 于 分 类 问题 ,机 器 学 习 、 稀 朴 表 示 学 习 与 深度 学 习 拥 有 着 各 自 的 处 理 技巧 与 策略 ,如 
机 器 学 习 中 的 支撑 向 量 机 ,包括 线性 、 半 线性 (数据 到 特征 空间 的 转化 , 即 特 征 学 习 ) 和 非 线 
性 ( 核 技巧 ) 方 式 下 的 模型 设计 ; 稀 朴 表示 学 习 中 的 稀 朴 表示 分 类 器 ,包括 基于 字典 学 习 的 
稀 玻 表示 分 类 器 、 结 构 化 稀 朴 表示 分 类 器 等 : 深度 学 习 中 的 深度 卷 积 神经 网 络 ` 深 度 置信 网 
络 (整体 结构 包括 特征 学 习 、 分 类 器 设计 两 个 子 阶段 ) 等 。 通 常 ,机 器 学 习 的 可 释 性 数学 框架 
包括 数据 、 模 型 .优化 和 求解 四 个 部 分 ,其 中 的 模型 是 核心 (基于 不 同 数据 所 作出 的 假设 得 到 
的 模型 也 是 不 同 的 ); 下 面 我 们 便 从 这 四 个 方面 陈述 三 者 之 间 的 关系 ,首先 ,对 于 数据 的 要 
求 ,机 器 学 习 和 稀 玖 表示 学 习 都 是 中 小 规模 的 ,深度 学 习 是 中 大 规模 的 ,并 且 机 器 学 习 注 重 
挖掘 数 据 中 的 先 验 知识 并 将 其 转化 为 相应 的 正则 化 约束 或 者 人 工 设计 特征 (例如 小 波 特征 、 
Sift 特征 ,统计 特征 等 ) ,而 稀疏 表示 学 习 则 注重 挖掘 数据 在 某 一 框架 下 (如 不 同类 数据 所 构 
造 的 或 学 习 的 字典 ) 的 稀 朴 特性 和 结构 拓扑 特性 (如 低 秩 约束 所 带 来 的 全 局 拓扑 特性 的 保 
持 ) ,深度 学 习 则 对 数据 的 先 验 知识 的 依赖 性 较 弱 ,期望 通过 层次 表达 的 堆 释 ,学 习 到 数据 的 
内 在 规律 特性 ,使 得 这 种 特性 呈 可 分 性 或 者 判别 特性 等 , 尽 可 能 弱化 对 分 类 器 的 复杂 性 设 
计 , 达 到 简单 .新颖 和 通用 的 目的 。 其 次 ,对 于 模型 ,依据 数据 的 假设 建立 的 机 器 学 习 和 稀 琉 
表示 学 习 是 较为 简单 的 网 络 结构 , 即 网 络 模型 的 复杂 度 低 但 内 蕴 较 大 (约束 较 多 ,可 应 用 的 
场景 受 限 ), 这 意味 着 完成 的 学 习 任务 较为 简单 且 表征 数据 的 能 力 有 限 ; 而 深度 学 习 通 常 建 
立 的 模型 复杂 度 较 高 ,而 内 蕴 较 小 (问题 的 可 应 用 范围 广 , 即 外 延 大 ) ,但 模型 的 学 习 效 率 降 
低 ( 参 数量 大 , 易 出 现 过 拟 合 现象 ) ,为 了 缓解 这 一 问题 ,通常 采用 的 策略 是 逐 层 学 习 ( 参 数 初 
始 化 的 选取 方式 ) 和 大 幅度 增加 数据 量 。 最 后 ,对 于 优化 和 求解 ,机 器 学 习 和 深度 学 习 的 关 
键 性 基础 是 反 向 传播 算法 , 即 目 标 函数 通过 利用 链 式 法 则 ,对 于 某 层 输入 的 导数 (或 者 梯度 ) 
可 以 通过 反 向 传播 对 该 层 输出 (或 者 下 一 层 输入 ) 的 导数 求 得 ,进而 调整 权 值 ,不 过 ,机 器 学 
习 通 常 处 理 的 任务 是 凸 优化 的 ,而 深度 学 习 则 是 高 度 非 凸 优化 的 ; 而 稀 玻 表示 学 习 则 通过 


© 





Q wee 总 结 与 展望 CD 人 


特定 的 追踪 匹配 算法 (OMP) 或 交替 方向 乘 子 ADMM 算法 实现 目标 函数 的 求解 ,包括 凸 优 
化 问题 ( 即 L 范 数 约束 的 BP 算法 等 ) 和 非 西 优化 问题 ( 即 Lo 范 数 约束 的 OMP 算法 等 ) 。 

近年 来 ,基于 机 器 学 习 、 稀 玻 表 示 学 习 和 深度 学 习 的 方法 相互 结合 ,各 自发 挥 其 相应 模 
块 的 优势 ,形成 各 种 策略 或 特性 下 的 深度 神经 网 络 模型 ,应 用 于 各 种 任务 。 例 如 深度 PCA 
网 络 , 即 深度 卷 积 神经 网 络 的 参数 由 PCA 算法 进行 初始 化 获取 ; 稀 朴 深度 神经 网 络 , 即 深 
度 神经 网 络 中 通过 使 用 修正 线性 单元 作为 激活 函数 (内 蕴 稀 朴 特 性 ) ,或 使 用 Dropout 策略 
CRE EON Fi it EB) ,或 使 用 池 化 操作 (通过 缩小 尺 十 或 原 尺 寸 补 零 操 作 ,强调 平移 不 变 
性 ) ,或 将 隐 层 节点 稀 玻 性 约束 等 引入 至 网 络 模型 中 ,模拟 生物 视觉 神经 的 稀 玻 响应 特性 ,以 
及 使 用 标准 稀 玻 编码 或 稀 琉 表示 进行 字典 学 习 , 将 得 到 的 字典 进行 转 置 得 到 滤波 器 组 作为 
深度 神经 网 络 的 参数 初始 化 选取 的 方式 ; 深度 小 波 /多 尺度 几何 神经 网 络 , 仍 采用 深度 神经 
网 络 的 架构 ,将 其 中 的 激活 函数 改 为 小 波 函 数 (解析 形式 ) ,或 者 将 二 代 小 波 的 离散 化 构成 滤 
波 器 组 集合 (包括 尺度 因子 .平移 因子 和 方向 因子 等 ,例如 背 波 、 曲 波 、 轮 廓 波 等 ), 随 机 地 选 
取 若 干 作 为 网 络 模型 初始 化 的 参数 ; 深度 SVM 网 络 , 即 特征 学 习 阶段 使 用 深度 神经 网 络 ， 
分 类 任务 阶段 使 用 SVM 分 类 器 ; 还 有 诸如 深度 极限 学 习 机 、 深 度 字典 学 习 、 深 度 ICA. 网 
络 , 深 度 强 化 学 习 等 ,都 是 从 方法 层面 上 进行 的 组 合 , 形 成 新 的 深度 神经 网 络 ,以 期 获取 简单 
模块 的 可 控 性 (例如 参数 可 分 层 优 化 避免 梯度 弥散 现象 等 ) 和 解释 性 (生物 机 理 ) 对 全 局 网 络 
模型 的 影响 。 本 质 上 ,深度 学 习 吸 纳 了 机 器 学 习 的 框架 , 稀 玻 表示 学 习 的 特性 和 优化 策略 ， 
使 得 学 习 到 的 特征 有 利于 提升 网 络 模型 的 泛 化 性 能 ,也 丰富 了 网 络 训练 的 各 种 技巧 与 策略 p 
更 为 重要 的 是 将 数据 的 自 适 应 分 析 进 一 步 推 向 人 工 智 能 。 

众所周知 ,机 器 学 习 、 稀 朴 表 示 学 习 和 深度 学 习 的 理念 有 所 不 同 , 机 器 学 习 在 中 小 规模 
的 数据 上 追求 精度 与 效率 ,所 以 花费 大 量 的 时 间 研 究 数据 的 先 验 特 性 并 且 模型 是 可 拆 分 的 ; 
稀疏 表示 学 习 的 理念 则 是 在 保证 输入 结构 特性 不 发 生 严重 扭曲 的 前 提 下 ,实现 字典 和 表示 
系数 的 学 习 , 模 型 的 设计 是 线性 的 且 考虑 数据 的 分 布 特性 ; 而 深度 学 习 的 理念 是 在 中 大 规 
模 数 据 集 上 追求 简单 ,兼顾 精确 ,不 强调 数据 的 先 验 特性 ,模型 讲求 统一 的 端 到 端的 设计 方 
式 。 另 外 ,在 不 同 硬件 和 数据 背景 的 驱动 下 ,应 用 任务 的 理念 也 在 发 生 着 重大 改变 。 


16.1.2 深度 学 习 .计算 与 认 知 的 范式 演进 


目前 ,常用 的 深度 学 习 的 网 络 模型 有 卷 积 神经 网 络 ( 监 督学 习 ) ,前 馈 神经 网 络 ( 半 监 督 
学 习 , 例 如 以 深度 置信 网 络 为 代表 的 堆栈 自 编码 构成 的 深度 堆栈 神经 网 络 ) ,生成 式 对 抗 网 
络 (无 监督 学 习 , 包 括 生成 网 络 与 判别 网 络 的 设计 )。 之 前 ,多 隐 层 的 感知 机 (或 称 深度 前 馈 
神经 网 络 ) 的 缺点 是 : 一 是 有 类 标 数 据 少 ,训练 不 充分 , 易 出 现 过 拟 合 现象 ; 二 是 构建 的 优 
化 目标 函数 为 高 度 非 凸 的 ,参数 初始 化 影响 网 络 模型 的 性 能 (因为 可 行 域内 出 现 大 量 鞍 点 和 
局 部 最 小 值 点 ) , 极 易 陷入 局 部 最 优 ; 三 是 利用 反 向 传播 算法 , 当 隐 层 较 多 时 ,由 误差 反馈 其 
靠近 输出 端的 权 值 调整 较 大 ,但 靠近 输入 端的 权 值 调 整 较 小 ,出 现 所谓 的 梯度 弥散 现象 。 针 
对 这 三 个 缺点 ,提出 的 改进 策略 有 : 一 是 增加 数据 量 , 改 进 统计 方法 ,如 裁剪 . 取 块 等 ; 或 减 
少 层 与 层 之 间 的 权 值 连接 ,间接 增加 数据 量 ; 再 或 利用 生成 式 对 抗 网 络 学 习 少 量 数据 的 内 
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在 分 布 特性 ,然后 根据 采样 来 扩充 数据 等 ; 二 是 逐 层 学 习 加 精 调 策略 ,利用 自 编码 或 传统 的 
机 器 学 习 方 法 和 稀 玻 表示 /编码 方法 在 无 监督 学 习 方式 下 实现 逐 层 的 权 值 预 训练 ( 逐 层 权 值 
初始 化 ) ,通过 保持 层 与 层 之 间 的 拓扑 结构 特性 来 避免 过 早 地 陷入 局 部 最 优 ; 三 是 为 了 弱化 
梯度 弥散 现象 ,在 初始 化 的 参数 上 ,引入 随机 梯度 下 降 实现 精 调 来 克服 输入 端的 权 值 未 充分 
训练 的 问题 。 

深度 学 习 、 计 算 与 认 知 的 范式 中 ,关于 “深度 ”的 定义 ,有 时 间 上 (如 深度 递归 神经 网 络 ) 
和 空间 结构 上 (如 深度 卷 积 神经 网 络 ) 的 区 别 , 其 相对 应 的 输入 分 别 为 序列 向 量 和 图 像 (或 视 
频 ) ,并 且 计 算 与 认 知 的 形式 也 有 所 不 同 ,时 间 上 的 深度 递归 神经 网 络 旨 在 挖掘 序列 数据 中 
的 上 下 文 逻辑 特性 ,空间 结构 上 的 深度 神经 网 络 主要 挖掘 数据 中 的 高 层 语义 特性 (层级 特征 
提取 ); 在 该 范式 中 ,强调 非 线 性 的 操作 (激活 函数 ), 即 从 数据 空间 到 特征 空间 的 扭曲 能 力 ; 
注重 的 是 端 到 端的 设计 模式 ,各 种 子 模块 的 组 合 , 例 如 卷 积 神经 网 络 中 的 卷 积 、 池 化 , 非 线 性 
和 批量 归 一 化 ,全 连接 和 Softmax 分 类 器 的 组 合 ; 深度 置信 网络 中 的 受 限 玻 尔 兹 曼 机 ,全 连 
接 和 Softmax 分 类 器 的 组 合 ; 深度 前 馈 神经 网 络 中 的 自 编 码 网 络 的 堆栈 (如 基于 分 析 合 成 
形式 的 包括 稀 朴 自 编码 、 降 噪 自 编码 、 卷 积 自 编码 ,可 收缩 性 的 自 编码 等 ,基于 合成 形式 的 稀 
HTD 2E EUR UE kB Ds 深度 生成 神经 网 络 中 的 生成 式 对 抗 网 络 , 其 中 生成 网 络 和 判别 
网 络 分 别 可 以 用 反 卷 积 神经 网 络 和 卷 积 神经 网 络 , 或 受 限 玻 尔 兹 曼 机 和 玻 尔 兹 曼 机 等 ; 深 
度 递 归 神 经 网 络 中 的 长 短 时 记忆 网 络 的 组 合 ( 注 重 隐 层 回路 的 设计 )。 

目前 ,深度 学 习 的 学 习 方 式 包括 监督 半 监 督 和 无 监督 ,其 中 半 监 督 方 式 下 的 逐 层 学 习 
(大 量 无 类 标 数 据 ) 加 精 调 (少量 有 类 标 数 据 ) 的 模式 最 为 成 熟 , 无 监督 方式 下 的 深度 学 习 最 
为 新 颖 ,如 基于 生成 式 对 抗 网 络 的 深度 生成 神经 网 络 ( 该 网 络 的 性 能 取决 于 数据 量 , 以 及 和 
代 更 新 判别 网 络 和 生成 网 络 的 策略 ) ,或 特征 学 习 加 机 器 学 习 中 的 无 监督 方法 (如 K-means 
聚 类 算法 ) 形 成 的 层级 聚 类 特性 的 深度 网 络 等 。 深 度 学 习 未 普及 以 前 ,研究 人 员 普 遍 认为 : 
学 习 有 用 的 ,多 级 层次 结构 的 ,使 用 较 少 先 验 知识 进行 特征 提取 的 这 些 方 法 都 不 可 靠 ,确切 
地 说 是 因为 简单 的 梯度 下 降 会 让 整个 优化 陷入 不 好 的 局 部 最 小 解 , 或 者 误差 在 多 隐 层 内 反 
向 传播 时 ,往往 会 发 散 而 不 能 收敛 到 稳定 状态 ; 但 目前 ,深度 学 习 的 核心 不 青 是 找到 全 局 最 
优 解 ,而 是 近似 最 优 解 , 随 着 自 编码 网 络 、 稀 蚊 编 码 、 生 成 式 对 抗 网 络 、 小 波 分 析 等 方法 应 用 
于 参数 的 初始 化 ,可 以 在 保持 输入 的 拓扑 结构 的 同时 避免 过 早 地 陷入 局 部 最 优 ,通常 ,近似 
最 优 解 也 是 实际 中 的 可 行 解 。 


16.1.3 深度 学 习 形 成 脉络 


本 节 我 们 将 以 图 谱 的 形式 给 出 各 种 深度 神经 网 络 的 关系 图 ,力求 从 监督 . 半 监 督 和 无 监 
督 的 角度 来 阐述 网 络 模型 的 知识 图 谱 , 并 给 出 深度 学 习 的 发 展 趋势 和 软件 基础 架构 。 

下 面 基于 深度 学 习 的 知识 图 谱 ( 图 16. 1) 和 不 同学 习 方式 下 的 典型 深度 学 习 网 络 
(图 16. 2) ,我 们 来 给 出 深度 学 习 的 几 个 关键 的 历史 趋势 。 首 先 .“ 深 度 学 习 ”" 有 着 悠久 而 且 
丰富 的 历史 与 哲学 观点 ,例如 可 追溯 到 20 世纪 40 一 60 年 代 的 控制 论 ,20 世纪 80— 90 年 代 
的 连接 机 制 等 ; 其 次 ,可 用 的 训练 数据 量 迅 速 增加 ,以 及 计算 机 软 硬 件 基础 有 所 完善 ,使 得 
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深度 学 习 继 2006 年 深度 置信 网 络 提出 来 后 又 重新 变 得 更 加 有 用 ,并 且 各 种 形式 或 策略 下 的 
深度 神经 网 络 如 雨后春笋 般 的 增长 ; 再 次 ,深度 学 习 已 经 能 够 解决 日 益 复 杂 的 各 种 实际 应 
用 任务 ,并 且 精 度 在 不 断 提高 ,例如 谷歌 的 Deepmind 团队 开发 的 AlphaGo 及 其 升级 版 
Master 可 用 于 围棋 游戏 , 它 的 存在 代表 着 人 工 智能 在 面 对 无 法 用 穷 举 法 策略 解决 问题 时 ， 
已 经 可 以 通过 特定 的 策略 来 减少 不 必要 的 计算 ,并 且 从 海量 的 对 弈 学 习 中 强化 正确 的 决策 ; 
再 比如 百度 的 "小 度 " 用 于 跨 年 龄 人 脸 识别 等 。 最 后 ,将 对 人 工 智 能 领域 产生 重大 变革 的 深 
度 学 习 模型 有 深度 卷 积 神经 网 络 ` 深 度 强化 学 习 \ 深 度 递归 神经 网 络 和 带 有 博弈 策略 的 生成 
式 对 抗 网 络 等 ,从 深 (网 络 层级 ) 到 浅 (每 一 隐 层 的 节点 个 数 ) 的 这 种 架构 ,力争 在 刻画 数据 的 
内 在 高 层 语义 特性 /人 逻辑 推理 特性 /分 布 概 型 等 方面 趋 近 于 无 监督 的 学 习 方 式 , 男 外 多 通路 .多 
尺度 策略 下 的 深度 学 习 也 将 更 加 趋向 人 工 智能 的 精髓 一 一 模拟 人 脑 多 层次 性 的 思考 过 程 。 
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图 16.1 深度 学 习 知 识 图 谱 


随 着 计算 机 硬件 的 不 断 发 展 ,能 够 有 效 处 理 、 实 时 分 析 大 规模 数据 的 各 种 专用 深度 学 习 
软件 平台 也 受到 人 们 的 高 度 关注 ,常用 的 平台 描述 总 结 如 图 16. 3 所 示 , 常 用 深度 神经 网 络 
的 结构 和 模块 如 图 16. 4 所 示 。 

大 规模 的 分 布 式 实现 依赖 多 机 的 并 行 化 , 即 由 于 每 个 机 器 上 的 计算 资源 往往 是 有 限 的 ， 
希望 把 训练 的 任务 分 挫 到 多 个 机 器 上 进行 。 不 论 是 数据 并 行 化 处 理 , 还 是 模型 并 行 化 交互 ， 
抑或 是 模型 的 压缩 等 ,从 计算 机 视觉 的 角度 ,都 直观 地 给 出 了 深度 学 习 对 数据 的 分 析 的 有 效 
性 和 合理 性 ,但 生物 可 解释 性 仍 缺 乏 相 应 的 证 据 来 说 明 这 一 点 ,并 且 基 于 深度 学 习 的 数学 理 
论 分 析 仍 不 完善 ,对 于 较 好 的 实验 结果 仍 缺乏 规律 性 的 描述 与 总 结 , 目 前 大 多 仍 是 依赖 实验 
经 验 的 指导 ,譬如 超 参 数 的 架构 参数 调节 的 技巧 等 。 
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图 16.2 不 同学 习 方式 下 的 典型 深度 学 习 网 络 
Caffe Tensorflow Torch7 Keras—Theano. MxNet 
郑 积 神经 网 络 | | | 深度 神经 网 || | 支持 机 器 学 基于 Theano 的 深度 | | | 轻 量化 分 布 式 可 移 
架构 下 的 快速 | | | 络 的 多 维 数 | | | 习 和 深度 学 学 习 框架 ， 包 含 各 | | | 植 的 深度 学 习 计算 
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图 16.3 常用 深度 学 习 平 台 的 简介 
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图 16.4 常用 深度 神经 网 络 的 结构 与 模块 
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总 之 ,深度 学 习 是 一 种 吸纳 了 众多 学 科 或 其 分 支 的 精华 .思想 的 方法 ,不 同学 科 已 存在 
且 基 于 脑 启发 式 的 算法 都 将 对 这 一 方法 产生 积极 /消极 的 冲击 ,其 中 积极 的 冲击 也 将 显著 地 
完善 人 脑 的 认 知 和 思考 过 程 .推动 着 人 工 智能 的 发 展 ,例如 深度 强化 学 习 等 。 


16.2 深度 学 习 的 应 用 介绍 


16.2.1 目标 检测 与 识别 


目标 检测 与 识别 是 指 从 一 幅 场景 (图 片 ) 中 找 出 目标 ,包括 检测 (主要 回答 场景 有 无 目标 
及 其 所 在 的 位 置 , 即 Where) 与 识别 (识别 检测 的 区 域 或 目标 是 什么 , 即 What) 两 个 过 程 ; 任 
务 的 难点 在 于 待 检测 区 域 /候选 框 的 提取 与 候选 框 的 识别 ,所 以 该 任务 的 大 框架 为 : 首先 ， 
建立 场景 提取 候选 框 的 模型 ; 然后 ,识别 候选 框 的 分 类 模型 ; 最 后 , 精 调 分 类 模型 的 参数 和 
有 效 候选 框 的 位 置 精 修 。 

该 任务 中 ,训练 数据 的 形式 为 : 输入 场景 (图 片 ) ,输出 为 场景 中 的 目标 位 置 与 类 别 ; 经 
典 的 模型 为 基于 区 域 的 卷 积 神经 网 络 , 即 R-CNN; 其 中 候选 框 提取 的 阶段 : 采用 选择 搜索 
的 策略 ,对 场景 输入 得 到 1k 一 2k 个 不 同 种 类 的 候选 框 区 域 ,由 于 区 域 大 小 不 一 ,所 以 在 识 
别 阶段 之 前 ,需要 缩放 处 理 为 一 致 的 尺寸 ; 其 中 识别 的 网 络 采用 的 是 卷 积 神经 网 络 ( 如 
AlexNet 或 VGG16 提 特 征 ,SVM 分 类 器 ); 对 应 着 的 优化 目标 函数 为 两 部 分 ,一 是 识别 阶 
段 的 损失 函数 , 另 一 个 是 候选 框 位 置 评估 的 损失 函数 , 即 建立 真实 框 的 位 置 与 有 效 候选 框 位 
置 (根据 二 者 的 交 释 面积 是 否 大 于 某 个 设 定 的 阔 值 来 判别 有 效 性 ?的 回归 器 ,主要 用 于 有 效 
候选 框 的 位 置 精 修 。 需 要 注意 的 是 : R-CNN 模型 中 提取 候选 框 , 识 别 阶 段 的 特征 提取 与 分 
类 器 设计 ,以 及 有 效 候选 框 的 位 置 精 修 是 分 阶段 依次 进行 的 ,并 不 是 一 个 统一 的 框架 。 

由 于 R-CNN 的 缺点 是 在 于 更 多 的 候选 窗 并 不 能 提升 性 能 , 且 存 在 大 量 的 重 杰 ,以 及 设 
计较 为 松散 ,存在 着 大 量 的 操作 元 余 使 得 时 间 和 存储 复杂 度 过 高 。 所 以 为 了 对 R-CNN 进 
行 改进 ,先后 提出 了 fast R-CNN 和 faster R-CNN, 其 仍 沿用 R-CNN 的 框架 ,但 不 同 的 是 
fast R-CNN 将 识别 阶段 的 特征 提取 、 分 类 器 设计 以 及 候选 框 精 修整 合 为 一 个 深度 网 络 ( 分 
类 器 使 用 Softmax) ,同时 在 该 深度 网 络 的 全 连接 层 使 用 了 提速 策略 一 一 权 值 矩阵 的 奇异 值 
分 解 , 注 意 在 fast R-CNN 中 候选 框 的 提取 与 识别 阶段 的 深度 网 络 是 分 阶段 进行 计算 的 ; 而 
faster R-CNN 则 首次 提出 使 用 了 候选 区 域 生 成 网 络 ( 注 意 不 再 是 之 前 R-CNN 和 fast R- 
CNN 中 的 选择 搜索 方法 ) ,通过 将 候选 区 域 生成 网 络 和 fast R-CNN 中 识别 阶段 的 深度 网 络 
融合 形成 了 一 个 统一 的 基于 深度 网 络 的 目标 检测 与 识别 框架 (其 中 这 两 个 网 络 训练 时 采用 
的 共享 卷 积 层 流 的 方式 ) ,注意 候选 区 域 生成 网 络 的 核心 思想 是 通过 卷 积 神经 网 络 直接 生成 
候选 区 域 。 此 后 ,全 卷 积 神经 网 络 和 显著 性 检测 也 都 被 用 于 目标 检测 与 识别 中 的 候选 区 域 
提取 中 ,形成 的 仍 是 一 个 统一 的 网 络 模型 。 
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16.2.2 超 分 辩 


超 分 辨 任务 是 指 将 同一 场景 的 低 分 辨 图 变 为 高 分 辩 图 的 过 程 ,需要 模式 化 该 过 程 , 即 寻 
找 低 分 辨 图 与 高 分 辨 图 的 内 蕴 特 性 (例如 稀疏 表示 中 低 分 辨 图 在 低 分 辨 字典 的 表示 系数 与 
高 分 辨 图 在 高 分 辨 字 典 下 的 表示 系数 是 一 样 的 ); 任务 的 难点 是 未 知 高 分 辩 图 退化 为 低 分 
辨 图 的 机 理 , 需 作出 合理 的 假设 (如 低 分 辨 率 的 图 完全 拥有 用 于 推理 预测 其 所 对 应 的 高 分 辨 
率 部 分 的 信息 ) ,来 逆向 (从 低 分 辨 到 高 分 辨 ) 建 模 倒 逼 ,寻找 这 种 内 荀 特性 的 表达 。 基 于 深 
度 学 习 的 超 分 辨 任务 的 大 框架 有 两 种 : 一 种 是 特征 空间 中 各 自 所 对 应 的 特征 映射 交互 , 即 
低 分 辨 图 输入 深度 神经 网 络 ( 记 为 Low Resolution DNN) 得 到 特征 , 记 为 Low Resolution 
Feature maps; 同 理 高 分 辩 图 输入 High Resolution DNN 网 络 得 到 High Resolution 
Feature maps, 通 过 建立 Low Resolution Feature maps 与 High Resolution Feature maps 之 
间 的 连接 ,最 终 形成 端 到 端 模型 (输入 为 低 分 辨 图 、 输 出 为 高 分 辨 图 ) 的 统一 架构 ,对 应 着 模 
型 需 学 习 的 参数 包括 Low Resolution DNN 和 High Resolution Feature maps 两 个 部 分 ; 53 
一 种 是 在 设计 低 分 辨 图 到 高 分 辨 图 (预测 或 生成 的 ) 的 网 络 这 个 过 程 中 ,为 了 利用 高 分 辨 图 
(真实 的 、 训 练 数据 集中 的 ) 来 指导 或 监督 这 个 过 程 的 学 习 ( 注 意 不 再 使 用 空域 的 损失 函数 ， 
即 真实 与 预测 的 差 ) ,需要 在 预测 的 高 分 辨 图 和 真实 的 高 分 辨 图 中 作出 博弈 (可 以 通过 设计 
二 分 类 深度 神经 网 络 来 实现 , 即 二 类 指 的 是 真实 的 (十 1) ,生成 的 (一 1)) ,期 望 预测 的 接近 于 
真实 的 高 分 辨 图 ,同时 期 望 预测 和 真实 的 高 分 辨 图 保持 一 定 的 差异 性 。 

该 任务 中 数据 的 形式 为 : 输入 为 低 分 辨 图 ,输出 为 对 应 的 高 分 辨 图 ; 经典 的 模型 是 基 
于 生成 式 对 抗 网 络 的 超 分 辨 任务 , 记 为 SuperResolution-GANs; 其 中 生成 式 对 抗 网 络 包 括 
两 个 部 分 ,生成 网 络 ( 可 用 各 种 深度 神经 网 络 , 如 卷 积 神经 网 络 、 深 度 置 信和 网 络 等 ) 与 判别 网 
络 ( 带 有 二 分 类 器 的 各 种 深度 神经 网 络 ); 其 中 生成 网 络 用 于 将 低 分 辨 图 变 为 高 分 辨 图 ,也 
称 伪 高 分 辨 图 ; 判别 网 络 用 于 区 分 真实 的 高 分 辨 图 和 伪 高 分 辨 图 ,进而 实现 指导 生成 网 络 
的 过 程 ; 需要 注意 的 是 伪 高 分 辨 图 与 真实 高 分 辩 图 的 尺寸 是 一 致 的 。 优 化 时 ,需要 满足 判 
别 网 络 尽 可 能 以 最 大 的 概率 判别 真 伪 , 同 时 又 需要 生成 网 络 得 到 的 伪 高 分 辨 图 尽 可 能 与 真 
实 的 高 分 辨 图 分 布 特性 一 致 , 即 判 别 网 络 以 最 小 的 概率 将 生成 的 伪 高 分 辨 图 判断 为 真实 的 
高 分 辨 图 。 当 生成 式 对 抗 网 络 训 练 完成 后 ,取出 生成 网 络 部 分 便 可 实现 低 分 辨 图 到 高 分 辨 
图 的 恢复 ; 其 中 的 求解 仍 采 用 交替 迭代 , 即 固定 判别 网 络 时 ,优化 生成 网 络 的 参数 , 同 理 固 
定 生成 网 络 时 ,优化 判别 网 络 的 参数 。 


16.2.3 自然 语言 处 理 


自然 语言 处 理 是 指 创 造 能 够 处 理 或 是 理解 语言 以 完成 特定 的 任务 的 系统 ,这 些 任务 通 
常 包括 问答 系统 (例如 Siri 做 的 事情 ) ,情感 分 析 ( 判 断 一 句 话 隐 含 着 的 积极 或 消极 的 意义 )、 
图 片 标注 (为 输入 的 图 像 生成 一 个 标题 ) .机 器 翻译 (将 一 种 语言 翻译 成 男 一 种 语言 ) 、 语 音 识 
别 、 词 性 标注 和 命名 实体 识别 等 。 如 何 建立 更 为 有 效 的 深度 神经 网 络 模型 来 处 理 自然 语言 ? 
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该 任务 的 核心 技术 是 词 向 量 ( 即 通过 该 向 量 值 来 表征 词 的 语 境 和 语义 , 记 为 Word2Vec) fl 
循环 /递归 神经 网 络 、 门 递归 单元 \ 长 短 时 记忆 网 络 等 ,不 同 任务 下 的 网 络 模 型 不 同 ,例如 基 
于 递归 神经 网 络 的 问答 系统 ,情感 分 析 的 树 状 长 短 时 记忆 网 络 ,基于 深度 LSTM 的 机 器 翻 

下 面 我 们 简要 地 介绍 深度 递归 神经 网 络 用 于 问答 系统 的 框架 ,如 果 我 来 问 你 一 个 问题 
“RNN 表示 什么 ”, 如 果 学 习 过 ,你 就 一 定 能 告诉 我 答案 。 这 是 因为 你 通过 阅读 、 存 储 记忆 ， 
已 经 吸收 了 这 些 知 识 , 你 只 需要 简单 地 花 几 秒 钟 去 定位 这 条 信息 ,然后 把 它 用 通顺 的 语言 表 
达 出 来 。 如 何 量化 该 过 程 并 设计 网 络 ? 首先 ,将 输入 转变 成 一 个 特征 ,这 需要 用 到 词 向 量 、 
词性 标注 ,解析 等 ; 其 次 ,依据 当前 的 特征 ,对 过 去 的 记忆 进行 更 新 ,从 而 反馈 系统 已 经 接收 
到 的 新 输入 ; 再 次 ,根据 更 新 的 记忆 对 输入 的 特征 进行 表征 ,得 到 新 的 特征 ; 最 后 ,对 新 特 
征 进行 解码 输出 反馈 ,这 一 个 过 程 可 理解 为 将 记忆 的 新 特征 转化 为 一 个 可 读 的 、 准 确 的 问题 
答案 ,实现 该 过 程 的 核心 网 络 便 是 深度 递归 神经 网 络 。 注 意 训 练 的 方式 为 监督 训练 ,训练 数 
据 包括 原始 文本 问题、 支撑 句 以 及 基底 真实 答案 等 。 

众所周知 ,深度 递归 神经 网 络 是 一 类 专门 处 理 序列 数据 的 模型 ,而 自然 语言 处 理 的 核心 
就 是 序列 标注 与 逻辑 推理 ; 目前 ,基于 各 种 改进 的 长 短 时 记忆 网 络 的 自然 语言 处 理 任务 层 
出 不 穷 , 应 用 驱动 下 的 目标 包括 : 咨询 、 售 后 服务 聊天 机 器 人 、 完 美的 实时 机 器 翻译 系统 ,以 
及 掌握 对 无 结构 文本 或 长 文本 更 深 的 理解 能 力 的 问答 系统 。 


16.3 深度 神经 网 络 的 可 塑性 


16.3.1 旋转 不 变性 


众所周知 ,大 脑 对 物体 的 认 知 或 识别 具有 一 定 角度 下 的 旋转 不 变性 ; 从 仿生 学 的 角度 ， 
模拟 大 脑 计算 的 深度 学 习 是 否 具有 旋转 不 变性 ? 实验 (数据 分 为 训练 数据 集 和 测试 数据 集 ， 
网 络 模型 为 深度 神经 网 络 ,利用 训练 数据 集 充 分 训练 深度 神经 网 络 ,得 到 模型 参数 ; 进而 对 
测试 数据 集 ( 旋 转 不 同 的 角度 ) 进 行 测试 并 统计 准确 率 ) 证 实 , 深 度 神经 网 络 在 ( 顺 时 针 或 逆 
时 针 ) 旋 转 较 小 角度 的 测试 数据 集 上 具有 相对 较 高 的 识别 准确 率 , 即 具 有 一 定 的 旋转 不 变 
性 。 例 如 ,对 于 深度 卷 积 神经 网 络 ,由 于 旋转 特性 主要 体现 在 卷 积 的 操作 上 (当然 部 分 地 也 
体现 在 池 化 和 非 线性 的 操作 上 ) , 即 卷 积 核 的 设计 应 包括 局 部 化 .方向 和 多 尺度 特性 ,其 中 的 
方向 特性 类 似 于 生物 视觉 腹 侧 视觉 通路 中 的 感受 野 接收 范围 , 随 着 网 络 模型 中 的 层次 加 深 ， 
这 种 方向 特性 也 应 逐渐 增 大 。 但 是 ,在 实验 中 ,为 了 对 较 大 旋转 角度 的 测试 数据 集 保持 较 高 
的 识别 准确 率 ,通常 需要 将 各 种 角度 下 的 数据 集 进行 混合 来 扩充 训练 样本 集 ,实现 网 络 的 重 
新 训练 ; 这 样 处 理 带 来 的 好 处 是 : 扩充 后 的 数据 集 ,使 得 网 络 模 型 能 够 得 到 充分 的 训练 , 同 
时 可 以 预防 欠 拟 合 现象 的 发 生 。 

谷歌 的 Deepmind 提出 了 空间 变换 神经 网 络 , 针 对 卷 积 神经 网 络 的 特点 ,构建 了 一 个 新 
的 局 部 网 络 层 , 称 为 空间 变换 层 , 它 能 将 输入 图 像 做 任意 空间 变换 (即将 平移 、 裁 剪 、 伸 缩 、 旋 
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转 这 四 种 操作 用 于 一 种 统一 的 结构 ) ,进而 提升 深度 神经 网 络 的 旋转 不 变 特性 。 
16.3.2 平移 不 变性 


什么 是 平移 不 变性 ? 对 于 深度 神经 网 络 模型 而 言 , 是 指 输入 图 像 整体 上 发 生 了 一 定 的 
平移 ,但 照样 能 够 提取 特征 进行 正确 的 识别 , 即 不 影响 输出 的 响应 。 目 前 ,实验 表明 ,深度 卷 
积 神 经 网 络 中 的 池 化 操作 具有 一 定 的 平移 不 变性 ,能 够 更 好 地 描述 物体 的 各 个 部 分 的 几何 
形变 , 即 如 果 选 择 图 像 中 的 连续 范围 作为 池 化 区 域 ,并 且 只 是 池 化 相同 或 重复 的 隐藏 单元 产 
生 的 特征 ,那么 ,这 些 池 化 单元 就 具有 平移 不 变性 ,换言之 ,图 像 经 历 了 一 个 小 的 平移 之 后 ， 
依然 会 产生 相同 的 ( 池 化 后 的 ) 特征 ; 这 对 于 很 多 的 应 用 任务 ,如 分 类 、 物 体检 测 、 声 音 识 别 
等 ,都 希望 得 到 具有 平移 不 变性 的 特征 ,因为 即使 图 像 经 过 了 平移 ,输入 (图 像 ) 的 类 标 仍然 
保持 不 变 。 例 如 ,如 果 你 处 理 一 个 MNIST 数据 集 的 数字 ,把 它 向 左 侧 或 右 侧 平移 ,那么 不 
论 最 终 的 位 置 在 哪里 ,都 期 望 分 类 器 仍然 能 够 精确 地 将 其 分 类 为 相同 的 数字 。 

池 化 对 于 空间 区 域 具 有 平移 不 变性 (备注 : 局 部 平移 不 变性 是 一 个 重要 的 性 质 ,尤其 当 
我 们 关心 某 个 特征 是 否 出 现 而 不 关心 它 出 现 的 具体 位 置 时 ); 应 用 实践 对 于 在 不 同 的 情况 
下 应 当 使 用 哪 种 池 化 函数 给 出 了 一 些 指 导 , 例 如 无 论 是 最 大 池 化 还 是 平均 池 化 都 是 在 提取 
区 域 特征 , 均 相当 于 一 种 抽象 ,抽象 就 是 过 滤 掉 了 不 必要 的 信息 (当然 也 会 损失 信息 细节 )， 
所 以 在 抽象 层次 上 可 以 进行 更 好 的 识别 。 二 者 效果 的 差异 通常 不 会 超过 2% ,由 于 评估 特 
征 提取 的 误差 主要 来 自 两 个 方面 : 一 是 邻 域 大 小 造成 的 估计 值 方差 增 大 ,平均 池 化 能 减 小 
这 种 误差 ; 二 是 卷 积 层 参数 误差 造成 估计 均值 的 偏 移 ,最 大 池 化 能 减 小 这 种 误差 。 总 之 , 平 
均 池 化 对 背景 保留 更 好 ,最 大 池 化 对 纹理 提取 更 好 。 


16.3.3 多 尺度 .多 分 辩 和 多 通路 特性 


目前 ,更 多 的 深度 神经 网 络 将 多 尺度 ` 多 分 辩 和 多 通路 等 特性 融入 至 网 络 的 构造 过 程 
中 ,期 望 通过 软 硬 件 的 并 行 化 来 提升 网 络 的 性 能 和 训练 的 高 效 性 。 其 中 的 核心 便 是 多 分 辨 
特性 , 随 着 深度 神经 网 络 的 层级 加 深 , 良 好 的 拓扑 结构 对 应 性 取决 于 输入 样本 的 分 辩 率 ,不 
同 分 辩 率 下 的 样本 差异 性 对 网 络 模型 的 性 能 都 有 显著 的 影响 ,换言之 ,数据 的 分 级 处 理 体现 
着 输入 与 输出 之 间 映 射 的 差异 性 ,犹如 大 脑 的 多 分 辨 特性 ,对 信息 结构 完整 或 分 辨 率 高 的 输 
和 人 识别 精度 高 ,相反 ,对 结构 缺失 或 分 辩 率 较 低 的 输入 识别 精度 低 ; 若 将 这 种 多 分 辨 特性 与 
深度 卷 积 神经 网 络 相 结合 ,形成 多 分 辨 深度 神经 网 络 , 便 可 以 从 广度 ( 即 多 通路 性 ) 上 削弱 对 
深度 ( 隐 层 个 数 ,例如 极 深 网 络 等 ) 的 约束 与 要 求 , 从 而 改善 差异 性 数据 集 学 习 到 的 深度 神经 
网 络 的 性 能 ,通常 的 网 络 结构 如 图 16. 5 所 示 。 

同时 ,这 种 多 尺度 .多 分 辨 和 多 通路 特性 可 以 为 深度 神经 网 络 带 来 良好 的 旋转 不 变性 、 
伸缩 不 变性 和 平移 不 变性 等 特性 ,如 图 16. 6 所 示 。 

众所周知 ,小 波 具 有 良好 的 多 分 辨 特性 、 通 过 构造 府 套 空间 序列 来 实现 对 输入 信号 的 刻 
画 , 以 期 获得 在 不 同 分 辨 率 下 的 编码 有 较 好 的 拓扑 结构 对 应 和 统计 特性 ,如 平移 ,伸缩 和 旋 
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图 16.6 多 通路 (不 同 的 角度 ) 深 度 卷 积 神经 网 络 的 结构 


转 不 变 特性 ,其 中 由 谋 套 空间 所 带 来 的 多 分 辩 特 性 可 以 聚焦 至 输入 信号 的 任意 细节 。 目 前 ， 
基于 小 波 分 析 或 多 尺度 几何 分 析 的 深度 神经 网 络 的 建 模 也 受到 了 极 大 的 关注 ,形成 深度 小 
波 网 络 TR BEER IE £t .深度 轮廓 波 网 络 等 ; 本 质 上 ,期 望 所 构建 的 模型 具有 更 好 地 对 输入 
获取 分 布 式 特征 的 表达 能 力 , 以 及 基于 软 硬 件 并 行 化 提升 学 习 的 效率 。 


16.3.4 Hit 


irit PEE E P8 7 VL VAR ,一 方面 指 的 是 信息 表示 的 普遍 属性 , 即 信息 的 表示 由 大 量 编码 
系数 中 的 少量 编码 系数 决定 的 现象 , 另 一 方面 指 的 是 模型 中 所 殖 含 的 稀 朴 特性 ,通常 认为 ， 
一 个 稀 朴 网 络 模型 具有 很 好 的 解释 性 一 一 符合 生物 视觉 认 知 机 理 , 并 且 网 络 具有 很 好 的 泛 
化 性 能 。 对 于 深度 卷 积 神经 网 络 模型 而 言 , 稀 下 性 可 以 贯穿 于 数据 ( 稀 玻 筛选 重要 样本 )、 连 
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接 权 值 (操作 ,技巧 与 策略 ,例如 带 有 卷 积 与 池 化 操作 一 一 由 局 部 连接 和 下 采样 所 引入 的 强 
Fit LE. Dropout. PREF Hi ^£ 27) 、 隐 层 节 点 ( 稀 玖 正则 ) 、 激 活 函 数 (修正 线性 单元 ReLU 隐 
含 对 特征 “ 非 负 稀 玖 性 ”的 要 求 ) 和 分 类 器 设计 (Sparsemax) 等 各 个 阶段 。 其 中 ,我 们 主要 从 
以 下 三 个 方面 研究 稀 朴 性 对 深度 神经 网 络 的 作用 : 一 是 稀 朴 筛选 重要 样本 , 即 训练 数据 集 
中 ,每 一 个 数据 对 模型 的 训练 起 到 的 作用 是 不 同 的 ,有 的 是 “Positive" 作 用 ,有 的 是 
“Negative" 作 用 , 稀 朴 筛选 ,顾名思义 ,获取 数据 集中 重要 的 样本 (“Positive”), 尽 可 能 减轻 
“Negative” 样 本 对 网 络 模型 的 影响 (模型 的 泛 化 性 能 ); 二 是 网 络 模型 中 的 参数 初始 化 ,为 
了 避免 深度 网 络 (因为 优化 目标 函数 为 非 凸 ,对 初始 化 参数 比较 敏感 ) 过 早 地 陷 和 人 局 部 最 优 ， 
基于 稀 玻 编码 (字典 或 基 的 学 习 , 通 过 转 置 便 可 以 得 到 滤波 器 , 即 初始 化 的 权 值 ) ,或 者 稀 玻 
自 编码 等 方法 的 权 值 初始 化 可 以 用 于 深度 网 络 中 逐 层 的 权 值 的 初始 化 一 一 逐 层 学 习 ; 三 是 
Pir Bi OPK AE ZIT AG Softmax 分 类 器 (输出 处 处 不 为 零 ) 不 同 ,Sparsemax 分 类 器 的 输出 大 
多 数 为 零 ,但 Sparsemax 上 基本 保持 了 Softmax 上 的 序 关 系 , 不 同 的 是 Sparsemax 的 输出 
不 再 平滑 , 头 尾 都 被 "截断 "了 。 

深度 学 习 与 稀 朴 性 的 关系 深刻 且 本 质 , 不 仅 有 效 地 模拟 了 生物 视觉 的 认 知 机 理 , 而 且 从 
算法 的 层面 上 大 量 的 尝试 是 合理 且 良 好 的 。 但 需要 注意 的 是 过 度 地 引入 稀 朴 正则 将 会 导致 
网 络 模型 的 泛 化 性 能 降低 。 


16.4 基于 脑 启发 式 的 深度 学 习 前 沿 方向 


16.4.1 生物 神经 领域 关于 认 知 .识别 .注意 等 的 最 新 研究 进展 


生物 视觉 皮层 如 何 实现 对 外 界 刺 激 的 稀 朴 响应 与 目标 识别 一 直 是 视觉 神经 科学 领域 中 
的 一 个 关键 问题 。 在 过 去 的 几 十 年 里 ,已 有 些 科 学 家 们 利用 视觉 神经 生理 研究 中 所 获得 的 
实验 数据 ,建立 了 一 些 计算 模型 ,在 对 这 一 关键 问题 的 探索 研究 中 ,取得 了 较 好 的 成 果 。 如 
1969 年 Willshaw 和 Buneman 等 人 提出 的 基于 Hebbian 局 部 学 习 规 则 的 稀 玖 表示 模型 ,其 
中 的 稀 朴 表示 可 以 使 得 记忆 能 力 最 大 化 ,进而 有 利于 网 络 结构 中 联想 机 制 的 建立 ; 1972 年 
Barlow 等 人 给 出 “稀疏 性 和 自然 环境 的 统计 特性 之 间 存 在 着 某 种 相关 性 联系 ”的 推论 ,利用 
该 推论 ,1996 年 Olshausen 和 Field 提出 了 稀 朴 编码 ,验证 了 自然 图 像 经 过 稀 玻 编码 后 ,学 
习 得 到 的 基 函 数 可 以 近似 描述 V1 区 上 简单 细胞 的 感受 野 的 响应 特性 。 进 一 步 , 随 着 生物 
视觉 皮层 中 关于 稀 朴 性 研究 的 不 断 深 入 ,如 从 V1 区 上 简单 细胞 的 感受 野 特性 逐渐 发 展 到 
V1 区 上 复杂 细胞 的 感受 野 特性 ,再 到 近年 来 依据 自然 场景 的 不 同 特征 (如 空间 位 置 、 形 状 、 
颜色 .运动 等 ) 将 视觉 皮层 分 成 不 同 的 视觉 通路 ( 见 图 16.7, 如 腹 侧 视觉 通路 与 背 侧 视觉 通 
路 ) 实 现 并 行 处 理 的 研究 ,都 已 经 取得 了 较 好 的 研究 成 果 ; 对 应 着 生物 视觉 稀 朴 认 知 机 理 方 
面 所 取得 的 研究 进展 , 稀 朴 认 知 计算 模型 也 从 稀 玻 编码 发 展 到 了 结构 化 稀 玻 模型 和 判别 性 
稀 玻 模型 等 ,再 到 近 两 年 来 关注 的 层次 化 稀 玻 模型 。 针 对 生物 视觉 皮层 如 何 识别 复杂 场景 
下 的 目标 ,科学 家 们 结合 生物 视 皮层 生理 研究 的 成 果 , 建 立 了 视觉 计算 模型 来 对 这 种 识别 机 
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理 进 行 模拟 并 给 出 合理 地 解释 。 最 具 代 表 性 的 工作 有 1999 年 美国 麻 省 理工 学 院 人 工 智能 
实验 室 的 Riesenhuber 和 Poggio 提出 了 层次 目标 识别 模型 ( 记 为 HMAX) ,经 验证 该 模型 
能 够 较为 合理 地 解释 哺乳 动物 腹 侧 视觉 通路 的 信息 处 理 机 理 ; 随后 2007 年 Serre 等 人 扩展 
T HMAX 模型 ,通过 引入 特征 编码 字典 ,使 得 改进 后 的 模型 可 以 定量 地 模拟 灵 长 类 动物 视 
党 皮层 腹 侧 通路 的 信息 处 理 机 理 ; 进一步 ,2014 年 清华 大 学 胡 晓 林 博士 等 人 在 HMAX 模 
型 的 基础 上 ,通过 引入 稀 玻 正则 的 约束 ,使 得 复杂 场景 下 的 目标 识别 任务 在 保证 高 性 能 的 前 
提 下 ,其 处 理 的 速度 , 较 之 前 的 HMAX 模型 提升 了 许多 。 
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Fd 16.7 生物 视觉 系统 的 信息 分 级 处 理 


另外 ,生物 神经 科学 已 经 揭示 了 认 知 行为 神经 基础 的 一 些 基本 原理 : 不 同 认 知行 为 是 
由 脑 内 不 同 的 神经 环 路 负责 ,需要 各 脑 区 内 的 局 部 神经 环 路 与 脑 区 间 长 程 神经 环 路 的 协同 
工作 ; 学 习 与 记忆 是 许多 认 知 功能 的 必要 基础 ,这 是 由 神经 细胞 之 间 突 触 联结 的 强度 与 结 
构 的 可 塑性 介 导 ; 神经 调 质 可 以 在 多 个 尺度 上 调节 神经 网 络 的 活动 与 可 塑性 ,从 而 调控 认 
知行 为 。 在 介 观 层面 ,科学 家 们 需要 描绘 脑 区 之 间 细 胞 类 型 特异 性 的 联结 图 谱 ; 绘制 认 知 
功能 的 大 脑 功能 图 谱 ; 利用 因果 性 手段 、 揭 示 认 知 功能 的 核心 脑 区 ; 操控 不 同 脑 区 及 脑 区 
间 联 结 的 活动 ,进而 观察 认 知 行为 的 改变 和 其 他 参与 环 路 的 活动 变化 ,从 而 获得 脑 整 体 动态 
规律 。 在 微观 层面 ,需要 益 明 不 同 脑 区 有 哪些 特定 类 型 的 神经 元 ; 揭示 不 同类 型 神经 元 是 
如 何 参与 特定 认 知 功能 的 ; 解析 不 同类 型 的 神经 元 是 如 何 联结 以 及 这 些 联结 是 如 何在 认 知 
行为 中 发 生动 态 改变 的 。 这 些 介 观 与 微观 研究 将 为 理解 宏观 认 知行 为 的 神经 基础 提供 重要 
线索 ,对 于 破解 人 类 智能 这 一 终极 奥秘 具有 重要 意义 。 同 时 ,揭示 认 知 行为 的 神经 机 制 有 助 
于 推动 脑 启发 的 智能 技术 (深度 学 习 ) 的 发 展 。 

基于 生物 神经 研究 的 下 一 代 深 度 学 习 , 以 降低 深度 学 习 对 数据 量 的 需求 为 目的 ,实现 小 
样本 学 习 甚至 One-Shot Learning。 需 注意 深度 神经 网 络 确实 从 生物 神经 科学 领域 的 研究 
中 获取 了 一 些 灵感 ,但 其 工作 原理 与 大 脑 是 截然 不 同 的 ,例如 神经 元 的 类 型 ,深度 神经 网 络 
用 的 是 点 神经 元 , 即 把 信号 加 权 平均 的 结果 输入 到 一 个 非 线性 函数 ,这 种 点 神经 元 是 对 生物 
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神经 元 的 极度 简化 ,没有 基于 时 间 的 变量 ; 而 生物 神经 元 则 利用 脉冲 进行 基于 多 维 时 空 变 
量 的 计算 。 另 外 ,即便 是 收集 足够 多 的 数据 ,但 缺少 模拟 的 过 程 , 对 数据 的 利用 效率 也 不 够 
高 ,所 以 需要 建立 一 个 全 尺度 ,高 精度 的 虚拟 大 脑 , 这 样 就 能 保证 在 虚拟 大 脑 里 重 现 已 经 观 
察 到 的 大 脑 的 现象 和 特征 ,从 而 更 加 准确 地 提出 测试 各 类 神经 元 的 计算 模型 。 


16.4.2. 深度 神经 网 络 的 进一步 研究 方向 


目前 ,针对 深度 学 习 的 研究 主要 集中 在 以 下 三 个 部 分 : 一 是 理论 算法 (关于 算法 的 稳定 
性 与 收敛 性 ; 其 中 稳定 性 是 针对 对 抗 样本 的 抗 干扰 能 力 , 收 敛 性 是 参数 随 着 迭代 次 数 的 变 
化 ,逐渐 趋 于 平衡 的 状态 ) 的 研究 ,针对 过 拟 合 现象 .梯度 弥散 现象 等 导致 的 模型 泛 化 性 能 
差 , 本 质 上 ,是 由 于 深度 神经 网 络 的 优化 算法 鲁 棒 性 差 , 即 输入 与 输出 的 关系 ( 非 线 性 利用 渐 
进 线性 描述 ) 是 病态 的 ,其 中 的 正则 化 约束 并 未 使 得 关系 良 态 化 ,另外 非 凸 性 的 优化 目标 函 
数 ( 即 可 行 域 中 存在 着 大 量 的 鞍点 与 局 部 极 值 点 ) 对 于 参数 的 初始 化 十 分 敏感 ,基于 逐 层 优 
化 的 策略 (例如 自 编码 、 受 限 玻 尔 兹 曼 机 、 生 成 式 对 抗 网 络 ,稀疏 编码 .独立 成 分 分 析 等 ) 可 以 
较 好 地 解决 参数 初始 化 的 问题 (好 的 初 值 本 质 上 加 速 收敛 进程 ), 但 预 训练 后 的 网 络 仍 存在 
着 收敛 性 难 的 问题 ,换言之 ,即使 精 调 后 的 网 络 的 收敛 性 与 稳定 性 仍 依赖 有 类 标 数据 的 量 ， 
依据 大 数 定律 , 当 有 类 标的 数据 量 较 多 时 ,网 络 模型 的 训练 较为 充分 ,理论 上 稳定 性 与 收敛 
性 置信 和 度 更 高 ; 例如 Tan Goodfellow 等 人 提出 的 生成 式 对 抗 网 络 框架 ,并 给 出 了 严格 的 稳 
定性 与 收敛 性 的 数学 证 明 ; 对 于 深度 神经 网 络 何 时 收敛 ,如 何 取 得 较 好 地 局 部 极 小 点 ,每 一 
层 变 换取 得 了 哪些 对 识别 有 益 的 不 变性 ,又 损失 了 哪些 信息 等 ,Mallat 利用 小 波 对 深层 网 
络 结构 进行 了 量化 分 析 , 是 在 这 一 个 方向 上 的 重要 理论 探索 ; 二 是 应 用 推广 (包括 基于 递归 
神经 网 络 的 自然 语言 处 理 , 基 于 生成 式 对 抗 网 络 的 超 分 辨 任务 、 基 于 faster R-CNN 目标 检 
测 与 识别 和 基于 卷 积 神经 网 络 的 人 脸 识别 等 ) 催 生 的 一 些 优 秀 的 深度 学 习 模型 与 训练 技巧 ， 
当前 较为 成 功 的 应 用 有 谷歌 的 Deepmind 团队 研发 的 AlphaGo 及 其 升级 版 Master 横扫 围 
棋 界 顶尖 职业 棋 手 ,背后 的 核心 技术 为 深度 强化 学 习 ( 强 化 学 习 与 深度 卷 积 神 经 网 络 的 结 
合 ); 百度 深度 学 习 研究 院 研 发 的 机 器 人 “小 度 ” 也 在 跨 年 龄 人 脸 识 别 任务 中 险胜 世界 记忆 
大 师 和 亚马逊 开发 的 用 于 无 人 超市 值守 的 Amazon Go, 进 一 步 将 人 工 智 能 及 其 背后 的 核心 
技术 一 一 深度 卷 积 神经 网 络 推 向 高 潮 ; 三 是 基于 生物 神经 启发 的 深度 学 习 改 进 , 如 基于 生 
物 神 名 Ld —— OMEN 可 以 有 效 
降低 算法 的 复杂 度 ( 时 间 和 存储 复杂 度 
wa 
规模 ,深度 学 习 模型 的 表现 就 可 以 得 到 提高 。 但 是 发 展 到 今天 ,这 种 思路 面临 很 多 挑战 。 主 
要 面临 下 面 几 个 问题 : 一 是 很 多 领域 ,很 难 获 取 大 量 的 监督 数据 或 者 数据 的 标注 成 本 过 高 ; 
二 是 训练 数据 规模 再 大 ,也 有 难以 覆盖 的 情况 。 例 如 聊天 机 器 人 ,我 们 不 可 能 穷尽 所 有 可 能 
的 答案 ,而 且 很 多 答案 也 是 随时 间 变 化 的 ; 因此 仅仅 依靠 大 规模 的 训练 语 料 ,并 不 能 解决 这 
些 问题 ; 三 是 通用 深度 学 习 模 型 ,直接 应 用 到 具体 问题 ,表现 (效果 、 性 能 、 占 用 资源 等 ) 可 能 
不 尽 如 人 意 ; 这 就 要 求 根据 特定 的 问题 和 数据 ,来 定制 和 优化 深度 学 习 网 络 结构 ,这 个 是 当 
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前 研究 最 多 最 热 的 地 方 ; 四 是 训练 的 问题 。 包 括 网 络 层 数 增加 带 来 的 梯度 衰减 ,如 何 更 有 
效 地 进行 大 规模 并 行 训练 等 。 为 了 解决 这 些 问题 ,当前 的 研究 前 沿 主要 包括 以 下 几 个 方向 ; 
一 是 引入 外 部 知识 ,例如 知识 图 谱 等 ; 二 是 深度 学 习 与 传统 方法 的 结合 ,包括 人 工 规则 与 深 
度 神经 网 络 的 结合 . 贝 叶 斯 与 深度 神经 网 络 的 结合 .迁移 学 习 与 深度 神经 网 络 的 结合 .强化 
学 习 与 深度 神经 网 络 的 结合 和 图 模型 与 深度 神经 网 络 的 结合 等 ; 三 是 无 监督 的 深度 生成 模 
型 ; 四 是 新 的 网 络 结构 新 的 训练 方法 等 。 


16.4.3 深度 学 习 的 可 拓展 性 


深度 学 习 不 仅 注重 生物 神经 的 可 解释 性 ,而且 网 络 模型 的 物理 可 描述 性 (层级 架构 的 组 
合 , 超 参数 的 选取 等 ) 和 数学 优化 与 求解 同样 重要 ; 无 论 是 对 偶 学 习 还 是 预测 学 习 , 或 是 无 
监督 学 习 等 ,本 质 上 ,这 些 学 习 范 式 都 将 削弱 网 络 模型 对 有 类 标 数据 的 依赖 性 , 带 有 ”* 感 ” 
“ 知 ”“ 用 ”预测 、 记 忆 与 遗忘 ,推理 特性 的 深度 神经 网 络 将 进一步 解释 、 模 拟 大 脑 学 习 、 认 知 
与 计算 的 过 程 。 当 前 ,或 须 研 究 的 是 深度 学 习 的 数学 基础 ,核心 问题 : 对 于 深度 神经 网 络 ， 
量化 输入 与 输出 之 间 函 数 ( 非 线性 算 子 ) 的 奇异 性 ,根据 算 子 的 谱 范 数 ,判断 该 系统 的 稳定 性 
与 收敛 性 ; 其 次 ,深度 学 习 的 表达 能 力 体现 在 线性 与 非 线 性 操作 复合 下 的 层级 组 合 策略 ,是 
否 层级 越 深 ,表达 能 力 越 强 ? 另外 , 需 回答 两 个 问题 ,一 是 不 增加 数据 量 的 情形 下 ,利用 格式 
搜索 超 参 数 所 构建 的 深度 网 络 模型 ,在 误差 限 一 致 时 ,是 否 存在 最 优 的 模型 (根据 模型 的 泛 
化 能 力 和 分 布 式 特征 的 表达 能 力 ) 来 合理 地 反馈 输入 与 输出 之 间 的 关系 ? 二 是 固定 网 络 模 
型 的 情形 下 , 随 着 数据 量 的 增加 ,网 络 性 能 (包括 训练 性 能 和 泛 化 性 能 ) 对 数据 能 否 趋 于 饱和 
状态 ,除了 数据 的 量 , 数 据 的 质 对 网 络 模型 的 影响 如 何 ? 

值得 关注 的 是 : 数据 驱动 下 的 深度 学 习 技 术 , 不 仅 注重 数据 的 量 , 而 且 也 注重 数据 的 
质 , 数 据 的 差异 性 对 深度 学 习 的 影响 是 至 关 重要 的 ,譬如 分 类 任务 .类 内 的 聚集 特性 ( 越 强 ， 
说 明 相似 度 越 高 , 即 共性 特征 为 主 , 个 性 化 特性 为 辅 ) 和 类 间 的 玻 散 特性 ( 越 大 ,说 明 类 与 类 
之 间 的 差异 性 越 明显 ,个 性 化 特性 为 主 , 共 性 特征 为 辅 ), 对 特征 设计 阶段 的 权 值 参数 有 判别 
特性 , 即 类 内 强调 共性 ,类 间 注 重 个 性 ; 满意 度 最 高 的 模型 状态 也 间接 说 明 二 者 (共性 与 个 
性 ?是 矛盾 统一 的 。 
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1. 图 像 分 类 


图 像 分 类 是 利用 计算 机 对 图 像 进行 定量 分 析 , 根 据 各 自在 图 像 信息 中 所 反映 的 不 同 特 
(iE ,把 不 同类 别 的 目标 区 分 开 来 的 图 像 处 理 方法 。 图 像 分 类 示例 如 附 图 A. 1 所 示 。 
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(a) 日 本 农田 土地 覆盖 原始 数据 (b) 日 本 农田 土地 覆盖 分 类 结果 
附 图 A.1 图 像 分 类 示例 
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Q 2. 目标 识别 


目标 识别 是 将 检测 到 的 目标 进行 分 类 ,判断 属于 哪 一 个 目标 类 别 , 并 在 原 图 中 标注 出 
来 , 即 识别 出 目标 。 目 标识 别 示 例如 附 图 A.2 Bron 




















(a) 原始 图 像 (b) 识别 后 图 像 
附 图 A.2 目标 识别 示例 


3. 目标 检测 
图 像 的 目标 检测 , 旨 在 利用 图 像 处 理 与 模式 识别 等 领域 的 理论 和 方法 ,检测 出 图 像 中 存在 
的 目标 对 象 ,并 将 目标 图 像 的 位 置 使 用 边界 框 进行 标定 。 目 标 检测 示例 如 附 图 A. 3 所 示 。 








(a) 目标 检测 前 (b) 目标 检测 后 
附 图 A.3 目标 检测 


4. 图 像 分 割 


图 像 分 割 就 是 把 图 像 分 成 若干 个 特定 的 .具有 独特 性 质 的 区 域 并 提出 感 兴趣 目标 的 技 
术 和 过 程 。 图 像 分 割 后 提取 出 的 目标 可 以 用 于 图 像 语义 识别 .图 像 搜索 等 领域 。 图 像 分 割 
示例 如 附 图 A.4 所 示 。 
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(b) 由 原始 图 像 分 割 生 成 的 图 像 
附 图 A.4 图 像 分 割 示例 


5. 图 像 配 准 


图 像 配 准 指 的 是 将 不 同时 间 不同 传 感 器 (成 像 设 备 ) 或 不 同 条 件 下 (天 候 、 照 度 、 摄 像 位 置 
和 角度 等 ) 获 取 的 两 幅 或 多 幅 图 像 进 行 匹 配 、 秋 加 的 过 程 。 图 像 配 准 示 例如 附 图 A. 5 所 示 。 





(a) 配 准 前 





(b) 配 准 后 
附 图 A.5 图 像 配 准 示例 
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6. 变化 检测 


变化 检测 是 指 从 不 同时 期 的 遥感 数据 中 定量 分 析 和 确定 地 表 变 化 的 特征 与 过 程 ,遥感 
变化 检测 是 遥感 瞬时 视 场 中 地 表 特征 随时 间 发 生 的 变化 引起 两 个 时 期 影像 像 元 光谱 响应 的 
变化 。 变 化 检测 示例 如 附 图 A. 6 所 示 。 





MW/ 


(a) 不 同时 期 影像 (b) 变化 检测 结果 图 











附 图 A.6 变化 检测 示例 


7. 图 像 超 分 辨 

图 像 超 分 辩 率 任务 就 是 给 定 一 幅 低 分 辨 率 图 像 或 者 图 像 序列 ,生成 或 恢复 成 它 的 高 分 
辩 率 图 像 。 按 照 重建 的 技术 手段 分 为 : 基于 插值 的 方法 、 基 于 重建 的 方法 和 基于 学 习 的 方 
法 。 图 像 超 分 辩 示例 如 附 图 A.7 BER 








(b) 3 倍 超 分 辨 结果 图 


图 像 超 分 辨 示例 
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8. 文本 处 理 


文本 指 的 是 由 多 个 词 构成 序列 来 组 成 句子 ,以 及 多 个 句子 构成 序列 组 成 一 个 段落 。 文 
本 处 理 具体 到 任务 例如 情感 /词性 分 类 ,机 器 翻译 或 者 语言 生成 模型 等 。 文 本 处 理 示例 如 附 


图 A.8 所 示 。 
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(a) 文本 训练 数据 
附 图 A.8 文本 


9. 图 像 标 注 


图 像 标注 是 根据 图 片 生成 描述 文字 ,借助 “语义 概念 ”检索 感 兴趣 图 像 , 在 图 像 搜索 领域 
有 广泛 应 用 ,目前 主要 的 实现 方法 有 CNN、RNN 等 。 图 像 标注 示例 如 附 图 A. 9 所 示 。 





(a) 原始 图 像 


VIOLA: | 
Why, Salisbury must find his flesh and thought | 
That which I am notaps, not a man and in fire, | 
To show the reining of the raven and the wars | 
To grace my hand reproach within, and not a 


fair are hand, That Caesar and my goodly 


father's world; When I was heaven of presence | 
and ourfleets, We spare with hours, but cut thy | 
council I am great, Murdered and by thy 

master's readythere My power to give thee but | 
so much as hell:Some service in the noble | 
bondman here, Would show him to her wine. — | 
KING LEAR: 

O, if you were a feeble sight, the courtesy of 

your law.Your sight and several breath, will — | 
wear the godz. With his heads, and my hands are | 
wonder'd at the deedz,So drop upon your 
lordship's head, and your opinion Shall be 


€— | 
(b) 生成 莎士比亚 风格 诗歌 样本 
处 理 示 例 


两 个 小 孩 在 玩 玩具 


(b) 由 原始 图 像 生成 文字 描述 
附 图 A.9 图 像 标注 示例 
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D 10. 从 文字 到 图 


既然 可 以 实现 图 像 标注 任务 ,那么 也 能 从 文字 生成 图 片 . 该 过 程 包含 : 四 利用 自然 语言 
处 理 来 理解 输入 中 的 描述 。 四 利用 神经 网 络 模型 输出 一 个 准确 .自然 的 图 像 , 对 文字 进行 表 
达 。 从 文字 生成 图 片 的 示例 如 附 图 A. 10 所 示 。 





(a) 输入 文字 描述 (b) 输出 图 像 生成 


附 图 A.10 文字 生成 图 片 示例 


11. Alpha Go 

Alpha Go( 见 附 图 A. 11) 使 用 蒙特 卡 洛 树 搜索 ,通过 自我 对 弈 提升 实力 ,借助 价值 网 络 
与 策略 网 络 这 两 种 深度 神经 网 络 ,通过 值 网 络 来 评估 大 量 选 点 判断 当前 局 势 来 辅助 策略 网 
络 ,通过 策略 网 络 企图 寻找 最 佳 的 下 一 步 并 选择 落 点 。 





附 图 A.11 人 机 对 弈 


12. 百度 -小 度 

百度 小 度 ( 见 附 图 A. 12) 利 用 深度 学 习 算 法 ,集成 了 自然 语言 理解 语音 识别 .机 器 视觉 
等 多 个 领域 的 人 工 智能 技术 。 可 以 通过 不 断 地 “学 习 ” 新 的 知识 ,学 会 更 多 的 技能 以 及 更 加 
自然 的 人 机 交互 ,小 度 曾 在 (最 强大 脑 ) 的 “人 机 对 战 环节 ”以 0.01% 的 精度 准确 识别 出 了 双 
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附 图 A.12 百度 小 度 


13. 无 人 超市 执 守 


无 人 超市 是 由 亚马逊 结合 人 工 智能 做 的 概念 性 超市 “Amazon Go”, 如 附 图 A. 13 所 示 ， 
保留 了 和 逛 的 元 素 , 不 用 排队 ,不 用 结账 ,不 用 注册 . 结合 计算 机 视觉 ,深度 学 习 算 法 和 传感器 
融合 技术 的 “径直 出 门 ? 技 术 , 可 自动 甄别 商品 是 被 拿 走 还 是 被 放 回 ,并 显示 账单 ,完成 自动 
扣 款 。 





附 图 A. 13 Amazon Go 无 人 超市 执 守 
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第 2 章 深度 前 馈 神 经 网 络 


PO po p de M 
C» ie C» Po a 


Theano: 基于 Python 的 深度 学 习 的 框架 和 库 

Javascript: 基于 Javascript 的 深度 学 习 的 框架 和 库 

Keras: 基于 Python 的 深度 学 习 的 框架 和 库 

Ruby: 基于 Ruby 的 深度 学 习 的 框架 和 库 

Objective-c; 基于 Objective-c 的 深度 学 习 的 框架 和 库 
DeepLearnToolbox-master: 基于 Matlab 的 深度 学 习 的 框架 和 库 


第 3 章 深度 卷 积 神经 网 络 


Bye 
3.2 
3.3 
3.4 
3.5 


CNN: 卷 积 神经 网 络 

RCNN and SPPnet: 区 域 卷 积 神经 网 络 和 空间 金字 塔 池 化 网 络 
Fast rcnn: 快速 区 域 卷 积 神经 网 络 

Alexnet: 经 典 的 卷 积 神经 网 络 

FCN: 全 卷 积 网 络 


第 4 章 深度 堆栈 自 编码 网 络 


4.1 
4.2 


CDBN: 卷 积 深度 置信 网 络 
dbn tf; 基于 TensorFlow 的 深度 玻 尔 兹 曼 机 网 络 
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4.3 deep boltzmann; RERRE SILA 

4.4  Sparse-Autoencoder-Tensorflow; 基于 TensorFlow 的 稀疏 自 编码 网 络 
4.5 StackedDAE: 堆栈 降 品 自 编码 网 络 

4.6 TensorFlow-DeepAutoencoder: 基于 TensorFlow 的 深度 自 编码 网 络 
4.7 TensorFlow-VAE: 基于 TensorFlow 的 变 分 自 编码 网 络 


第 5 章 稀疏 深度 神经 网 络 

5.1 sparseae exercise; 基于 Matlab ff] fi mi A Sa 05 I] £f 
$68 深度 融合 网 络 

6.1 Python-ELM: 基于 Python 的 极限 学 习 机 以 及 深度 极限 学 习 机 
第 7 章 深度 生成 网 络 


7.1 WGAN-tensorflow: 带 有 Wasserstein 距离 的 生成 式 对 抗 网 络 
7.2 LS-GAN: 最 小 二 乘 生成 式 对 抗 网 络 
7.3 DCGAN-tensorflow; 深度 卷 积 生成 式 对 抗 网 络 


第 8 章 复 卷 积 神经 网 络 与 二 值 神经 网 络 


8.1 Deep CCNN: 深度 复 卷 积 网 络 
8.2 BinaryNet: 深度 二 值 神经 网 络 


第 9 章 深度 循环 和 递归 神经 网 络 
9.1 char-rnn: 深度 循环 和 递归 神经 网 络 
第 10 章 深度 强化 学 习 


10.1 deer: 强化 学 习 的 框架 和 库 
10.2 deep-q-learning: 深度 Q 学 习 


FUR 深度 学 习 软件 仿真 平台 及 开发 环境 


11.1 Caffe-Alexnet: 基于 Caffe 的 Alexnet 网 络 仿 真实 现 

11.2 MXNet-VGG: 基于 MXNet 的 VGG 网 络 仿 真实 现 

11.3 Tensorflow-GAN: 基于 Tensorflow 的 生成 式 对 抗 网 络 仿真 实现 
11.4 theano-lstm: 基于 theano 的 长 短 时 记忆 网 络 仿真 实现 

11.5 Torch7-binarynet: 基于 Torch7 的 二 值 神经 网 络 网 络 仿真 实现 
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O 第 12 章 基于 深度 神经 网 络 的 SAR 和 PolSAR 影像 地 物 分 类 


12.1 GAN_PolSAR: 基于 生成 式 对 抗 网 络 的 PolSAR 影像 地 物 分 类 
12.2 Deep CCNN_PolSAR: 基于 深度 复数 卷 积 网 络 的 PolSAR 影像 地 物 分 类 
12.3 Deep Residual Network_PolSAR: 基于 深度 残 差 网 络 的 PolSAR 影像 地 物 分 类 


第 14 章 基于 深度 神经 网 络 的 高 光谱 图 像 分 类 与 压缩 
14.1 deeplearn HSI; 基于 深度 学 习 的 高 光谱 图 像 分 类 
第 15 章 基于 深度 学 习 的 目标 检测 与 识别 


15.1 yolo: you only look once 目标 检测 算法 源 代码 

15.2 voc-dpm-release5: dpm 目标 检测 算法 源 代码 

15.3 renn: 基于 区 域 卷 积 神经 网 络 的 目标 检测 算法 源 代码 

15.4 fastrcnn: 基于 快速 区 域 卷 积 神经 网 络 的 目标 检测 算法 源 代码 
15.5 faster_rcnn: 基于 更 快 区 域 卷 积 神经 网 络 的 目标 检测 算法 源 代码 
15.6 caffe: caffe 深度 学 习 工 具 包 

15.7 caffe-fast-renn: 基于 快速 区 域 卷 积 神经 网 络 的 caffe 源 代码 
15.8 caffe-ssd: ssd 目标 检测 算法 的 caffe 源 代码 


